В очередной раз выполняя Google-поиск русскоязычных ресурсов по R, наткнулся на книгу, полная ссылка на которую выглядит так:
Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. - Воронеж: ВГАУ, 2010. - 124 с. PDF
Хотя пособия по R появлялись и раньше (например, серия статей в журнале "Linux Format", материалы к лабораторным занятиям по машинному обучению c применением R, и др.), работа А. Г. Буховца и соавт. является, по-видимому, первой настоящей книгой на русском языке, посвященной статистическому анализу при помощи этой системы. В описании книги говорится:
"Учебное пособие предназначено для студентов, обучающихся по направлениям ...«Экономика» и ... «Агроинженерия», программа которых предусматривает изучение современных средств и методов проведения статистического анализа данных. В учебном пособии кратко излагается соответствующий теоретический материал и приводятся примеры решения практических задач по разделам: линейная алгебра, теория вероятностей и математическая статистика с применением системы статистической обработки данных и программирования R. В качестве приложений настоящее пособие содержит описание системы R и листинги программ, которые могут быть использованы в учебном процессе."
Позволю себе дать "рецензию" на эту книгу. Сразу оговорюсь, однако, что мои впечатления строятся лишь на поверхностном ознакомлении с ней - от корки до корки я ее не прочитал.
Первые две главы книги посвящены элементам линейной алгебры и теории вероятностей. Материал, излагаемый в этих (и других) главах, рассчитан на читателя с приличной математической подготовкой. Изложение теории чередуется с примерами R-кода.
Третья глава носит название "Основы математической статистики" и включает рассмотрение таких ключевых понятий, как генеральная и выборочная совокупности, точечные и интервальные оценки параметров распределения, а также проверка статистических гипотез. Приводятся примеры выполнения в R ряда "классических" статистических тестов, таких как хи-квадрат, тест Колмогорова-Смирнова, тест Стьюдента, F-тест и однофакторный дисперсионный анализ.
Заключительная четвертая глава посвящена "началам регрессионного анализа". Приводится теория метода и примеры рассчета коэффициентов простой линейной регрессий и оценки их значимости.
Завершается книга приложением, в котором описаны основные принципы работы с R и приведен ряд полезных R-скриптов.
Публикация любой книги по R - это всегда хорошо, особенно если она на русском языке. Тем не менее, не смотря на ее привлекательное название, рассматриваемую работу нельзя назвать практическим руководством по статистическому анализу на языке R. В ней имеется явный уклон в теорию математической статистики, что делает книгу почти бесполезной для читателя, который намеревается получить навыки анализа, не углубляясь в математические детали того или иного метода. Ярким подтверждением этому заключению является то, что в книге нет фактически ни одного примера анализа, который был бы основан на данных из реального мира - вместо этого авторы симулируют совокупности с необходимыми свойствами. Вердикт: рассматриваемая книга хороша тем, что она есть, но на ориентированный на практику учебник по статистическому анализу с использованием R она не дотягивает. Будем ждать новых работ :)
Совершенно очевидно и естественно, что первый опыт издания "настоящей книги по статистическому анализу в системе R" не может быть свободен от каких-либо недостатков, и нам было бы интересно и полезно о них узнать. Но "поверхностное ознакомление" это именно "поверхностное ознакомление"..., которое вполне можно было бы оставить без внимания, если бы не некоторые моменты, которые обязывают нас ответить.
Во-первых, не кажется ли Вам, что Вы несколько, скажем так, путаете жанры: "Учебное пособие по статистическому анализу" и "Статистический анализ в примерах и задачах"? Или Вы считаете, как показалось нам при прочтении рецензии, что обучение статистическому анализу данных можно проводить не вникая в суть методов (дословно - "не углубляясь в математические детали того или иного метода") и сводя весь анализ к "кнопочной технологии"? Тогда, действительно, это не тот вариант, на который Вы, быть может, рассчитывали. "Кулинарных рецептов" типа: "сделайте так, а затем вот так и будет вам счастье" в нашем учебном пособии, которое и не является самоучителем, - нет.
Авторы рецензируемой работы, и это второй важный момент, на который хочется обратить Ваше внимание, исповедуют несколько другой стиль преподавания. Студент должен знать, как работает тот или иной метод, в чем его преимущества, и, это главное, - в чем заключаются его ограничения. Только тогда студенту будут понятны разъяснения преподавателя о том, на что следует обращать внимание в полученных результатах и почему. Попытки же упрощенного изложения статистических методов чаще всего ведут к информационной ущербности обучения.
Об этом свидетельствует богатый опыт общения авторов с биологами, а также в равной степени с социологами, экономистами, инженерами и другими специалистами. В опубликованных биологических работах, даже у авторов с учеными степенями (речь идет о них, как о наиболее близких Вам по специализации), часто можно наблюдать последствия такого обучения. Авторы подобных работ не различают коэффициентов корреляции Пирсона и Спирмена, используют критерий согласия Колмогорова на дискретных данных, строят стандартные доверительные интервалы, не проверив гипотезы о нормальности исходных данных и так далее. Может быть в отдельных "научных учреждениях", на подобные "математические детали" и не принято обращать внимания, но авторский коллектив рецензируемого учебного пособия такого подхода не разделяет.
В заключении хотелось бы согласиться с Вашим замечанием относительно отсутствия примеров "анализа, который был бы основан на данных из реального мира". Авторы надеются восполнить этот недостаток в последующих изданиях. Тем более, что с учебной точки зрения, зная модель формирования данных, легче оценивать полученные результаты, особенно при варьировании параметров. При этом следует помнить, что весьма существенная часть учебной работы строится на очном взаимодействии студента с преподавателем. А "данные из реального мира" студенты будут получать и анализировать в ходе практических занятий.
С уважением,
А. Буховец, П. Москалев
Позвольте и Вас поблагодарить за оказанное внимание к моей скромной персоне и моему мнению о вашем труде.
Поверьте, последнее о чем я думал, когда писал "рецензию" (заметьте, слово взято в кавычки, потому как полноценной рецензией я это не рассматриваю и о причинах этого заявляю в тексте) - это создать некое негативное отношение к книге у читателя. Напротив, выход Вашей книги рассматриваю как большое и важное событие в деле продвижения R среди русскоязычных пользователей. Сообщение о книге я разместил у себя в блоге с надеждой, что как можно больше людей узнают о ней, загрузят к себе на компьютер (к счастью!) находящийся в свободном доступе файл книги, и прочитают ее.
Абсолютно с вами согласен, что преподавание статистики без вникания в суть методов является "информационно ущербным". Тому служит подтверждением и Ваш, и мой опыт преподавания. Однако я уверен, что тот уровень математических выкладок, который имеет место в Вашей книге, отпугнет от нее значительную массу потенциальных читателей, не имеющищх соответствующей математической подготовки. Такие читатели, к сожалению, вряд ли смогут воспользоваться Вашей книгой на практике, о чем я и высказал мнение в своем блоге. Об этом мне позволяет судить мой опыт общения, в частности, со многими биологами и медиками. Проблема, по-видимому, в самой системе математической подготовки подобных специалистов, причем эта проблема существует везде, не только в странах бывшего Союза. Но это отдельная огромная тема. Сегодня проводятся большие конференции с целью найти оптимальные способы преподавания статистики непрофильным специалистам и, насколько мне известно, пока проблема не решена.
Невозможно написать книгу "для всех", да такая задача, вероятно, и не ставилась Вашим авторским коллективом. Тем не менее, примеров книг по статистике, после прочтения которых "нематематики" вполне могут самостоятельно приступить к применению описанных в них методов на практике (а не к этому ли стремятся авторы большинства книг и учебников!?), имеется большое количество. Из книг, доступных на русском языке, в голову сразу приходит известная работа С. Гланца "Медико-биологическая статистика". Непосредственно по R также существует громадное количество аналогичной литературы. На этом и был основан мой вывод о том, что Ваша книга не является ориентированным на практику учебником по статистическому анализу. Впрочем, возможно, таковой она и не задумывалась. Как и любой другой человек, могу ошибаться в своих выводах. И даже был бы очень этому рад в данном случае.
С уважением,
Сергей
А вот графику лучше использовать trelis (можно сохранить один пример "самопального" графика), больше пользы для обучаемых.
Отправить комментарий