21 июня 2011

Учебное пособие по статистическому анализу в системе R



В очередной раз выполняя Google-поиск русскоязычных ресурсов по R, наткнулся на книгу, полная ссылка на которую выглядит так:

Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. - Воронеж: ВГАУ, 2010. - 124 с. PDF

Хотя пособия по R появлялись и раньше (например, серия статей в журнале "Linux Format", материалы к лабораторным занятиям по машинному обучению c применением R, и др.), работа А. Г. Буховца и соавт. является, по-видимому, первой настоящей книгой на русском языке,  посвященной статистическому анализу при помощи этой системы. В описании книги говорится:

"Учебное пособие предназначено для студентов, обучающихся по направлениям ...«Экономика» и ... «Агроинженерия», программа которых предусматривает изучение современных средств и методов проведения статистического анализа данных. В учебном пособии кратко излагается соответствующий теоретический материал и приводятся примеры решения практических задач по разделам: линейная алгебра, теория вероятностей и математическая статистика с применением системы статистической обработки данных и программирования R. В качестве приложений настоящее пособие содержит описание системы R и листинги программ, которые могут быть использованы в учебном процессе."

Позволю себе дать "рецензию" на эту книгу. Сразу оговорюсь, однако, что мои впечатления строятся лишь на поверхностном ознакомлении с ней - от корки до корки я ее не прочитал.

Первые две главы книги посвящены элементам линейной алгебры и теории вероятностей. Материал, излагаемый в этих (и других) главах, рассчитан на читателя с приличной математической подготовкой. Изложение теории чередуется с примерами R-кода.

Третья глава носит название "Основы математической статистики" и включает рассмотрение таких ключевых понятий, как генеральная и выборочная совокупности,  точечные и интервальные оценки параметров распределения, а также проверка статистических гипотез. Приводятся примеры выполнения в R ряда "классических" статистических тестов, таких как хи-квадрат, тест Колмогорова-Смирнова, тест Стьюдента, F-тест и однофакторный дисперсионный анализ.

Заключительная четвертая глава посвящена "началам регрессионного анализа". Приводится теория метода и примеры рассчета коэффициентов простой линейной регрессий и оценки их значимости.

Завершается книга приложением, в котором описаны основные принципы работы с R  и приведен ряд полезных R-скриптов.

Публикация любой книги по R - это всегда хорошо, особенно если она на русском языке. Тем не менее, не смотря на ее привлекательное название, рассматриваемую работу нельзя назвать практическим руководством по статистическому анализу на языке R. В ней имеется явный уклон в теорию математической статистики, что делает книгу почти бесполезной для читателя, который намеревается получить навыки анализа, не углубляясь в математические детали того или иного метода. Ярким подтверждением этому заключению является то, что в книге нет фактически ни одного примера анализа, который был бы основан на данных из реального мира - вместо этого авторы симулируют совокупности с необходимыми свойствами. Вердикт: рассматриваемая книга хороша тем, что она есть, но на ориентированный на практику учебник по статистическому анализу с использованием R она не дотягивает. Будем ждать новых работ :)


4 комментария :

Paule комментирует...

Уважаемый Сергей, позвольте поблагодарить Вас за внимание, проявленное к нашей работе.

Совершенно очевидно и естественно, что первый опыт издания "настоящей книги по статистическому анализу в системе R" не может быть свободен от каких-либо недостатков, и нам было бы интересно и полезно о них узнать. Но "поверхностное ознакомление" это именно "поверхностное ознакомление"..., которое вполне можно было бы оставить без внимания, если бы не некоторые моменты, которые обязывают нас ответить.

Во-первых, не кажется ли Вам, что Вы несколько, скажем так, путаете жанры: "Учебное пособие по статистическому анализу" и "Статистический анализ в примерах и задачах"? Или Вы считаете, как показалось нам при прочтении рецензии, что обучение статистическому анализу данных можно проводить не вникая в суть методов (дословно - "не углубляясь в математические детали того или иного метода") и сводя весь анализ к "кнопочной технологии"? Тогда, действительно, это не тот вариант, на который Вы, быть может, рассчитывали. "Кулинарных рецептов" типа: "сделайте так, а затем вот так и будет вам счастье" в нашем учебном пособии, которое и не является самоучителем, - нет.

Авторы рецензируемой работы, и это второй важный момент, на который хочется обратить Ваше внимание, исповедуют несколько другой стиль преподавания. Студент должен знать, как работает тот или иной метод, в чем его преимущества, и, это главное, - в чем заключаются его ограничения. Только тогда студенту будут понятны разъяснения преподавателя о том, на что следует обращать внимание в полученных результатах и почему. Попытки же упрощенного изложения статистических методов чаще всего ведут к информационной ущербности обучения.

Об этом свидетельствует богатый опыт общения авторов с биологами, а также в равной степени с социологами, экономистами, инженерами и другими специалистами. В опубликованных биологических работах, даже у авторов с учеными степенями (речь идет о них, как о наиболее близких Вам по специализации), часто можно наблюдать последствия такого обучения. Авторы подобных работ не различают коэффициентов корреляции Пирсона и Спирмена, используют критерий согласия Колмогорова на дискретных данных, строят стандартные доверительные интервалы, не проверив гипотезы о нормальности исходных данных и так далее. Может быть в отдельных "научных учреждениях", на подобные "математические детали" и не принято обращать внимания, но авторский коллектив рецензируемого учебного пособия такого подхода не разделяет.

В заключении хотелось бы согласиться с Вашим замечанием относительно отсутствия примеров "анализа, который был бы основан на данных из реального мира". Авторы надеются восполнить этот недостаток в последующих изданиях. Тем более, что с учебной точки зрения, зная модель формирования данных, легче оценивать полученные результаты, особенно при варьировании параметров. При этом следует помнить, что весьма существенная часть учебной работы строится на очном взаимодействии студента с преподавателем. А "данные из реального мира" студенты будут получать и анализировать в ходе практических занятий.

С уважением,
А. Буховец, П. Москалев

Сергей Мастицкий комментирует...

Уважаемые коллеги,

Позвольте и Вас поблагодарить за оказанное внимание к моей скромной персоне и моему мнению о вашем труде.

Поверьте, последнее о чем я думал, когда писал "рецензию" (заметьте, слово взято в кавычки, потому как полноценной рецензией я это не рассматриваю и о причинах этого заявляю в тексте) - это создать некое негативное отношение к книге у читателя. Напротив, выход Вашей книги рассматриваю как большое и важное событие в деле продвижения R среди русскоязычных пользователей. Сообщение о книге я разместил у себя в блоге с надеждой, что как можно больше людей узнают о ней, загрузят к себе на компьютер (к счастью!) находящийся в свободном доступе файл книги, и прочитают ее.

Абсолютно с вами согласен, что преподавание статистики без вникания в суть методов является "информационно ущербным". Тому служит подтверждением и Ваш, и мой опыт преподавания. Однако я уверен, что тот уровень математических выкладок, который имеет место в Вашей книге, отпугнет от нее значительную массу потенциальных читателей, не имеющищх соответствующей математической подготовки. Такие читатели, к сожалению, вряд ли смогут воспользоваться Вашей книгой на практике, о чем я и высказал мнение в своем блоге. Об этом мне позволяет судить мой опыт общения, в частности, со многими биологами и медиками. Проблема, по-видимому, в самой системе математической подготовки подобных специалистов, причем эта проблема существует везде, не только в странах бывшего Союза. Но это отдельная огромная тема. Сегодня проводятся большие конференции с целью найти оптимальные способы преподавания статистики непрофильным специалистам и, насколько мне известно, пока проблема не решена.

Невозможно написать книгу "для всех", да такая задача, вероятно, и не ставилась Вашим авторским коллективом. Тем не менее, примеров книг по статистике, после прочтения которых "нематематики" вполне могут самостоятельно приступить к применению описанных в них методов на практике (а не к этому ли стремятся авторы большинства книг и учебников!?), имеется большое количество. Из книг, доступных на русском языке, в голову сразу приходит известная работа С. Гланца "Медико-биологическая статистика". Непосредственно по R также существует громадное количество аналогичной литературы. На этом и был основан мой вывод о том, что Ваша книга не является ориентированным на практику учебником по статистическому анализу. Впрочем, возможно, таковой она и не задумывалась. Как и любой другой человек, могу ошибаться в своих выводах. И даже был бы очень этому рад в данном случае.

С уважением,
Сергей

Sergei комментирует...

Пожелание Авторам книги. Раз такое плотное введение в линейную алгебру с примера кода в начале, то лучше в дальнейшем делать отступы в изложении на примеры реализации МНК например также средствами линейной алгебры. И только потом писать стандартные решения.

А вот графику лучше использовать trelis (можно сохранить один пример "самопального" графика), больше пользы для обучаемых.

Олег Шмелев комментирует...

Не касаясь содержания этого учебного пособия отмечу, что оно производит очень хорошее эстетическое впечатление и может использоваться для демонстрации возможностей не только R, но и LaTeX.

Отправить комментарий