16 февраля 2012

Интервью с Алексеем Шипуновым – автором книги "Наглядная статистика. Используем R!"



Литература по R на русском языке, к сожалению, пока весьма редка. Однако, дело сдвинуто с мертвой точки. В 2010 году профессором А. Г. Буховцом и коллегами была опубликована первая в России книга, посвященная статистическому анализу в системе R. Менее месяца назад вышла еще одна книга – "Наглядная статистика. Используем R!". Один из инициаторов этого проекта – биолог Алексей Шипунов – любезно согласился дать мне интервью. Наше общение происходило по электронной почте, и все ответы Алексея приведены в его авторской редакции.

Сергей Мастицкий (СМ): Алексей, спасибо, что согласились дать это интервью! Для начала позвольте спросить, как получилось, что Вы стали так серьезно заниматься статистикой - ведь, насколько мне известно, Вы по профессии биолог?

Алексей Шипунов (АШ): В биологии статистические методы нужны ничуть не реже, чем в так называемых "точных" науках. К тому же я занимаюсь систематикой растений, а, значит, мне надо анализировать сотни признаков у тысяч особей. Без статистических методов, особенно многомерных, тут не обойтись.

СМ: Существует большое количество программ для выполнения статистического анализа разного уровня сложности. Почему из всего этого разнообразия Вы отдали предпочтение системе статистических вычислений R?

АШ: Когда я писал диплом, я считал все на калькуляторе. Когда делал диссертацию, работал в STATISTICA. Ну а потом я стал искать что-нибудь, что позволило бы делать статистику в любимой операционной системе (Linux). И мне рассказали про R. Первые несколько лет было трудно, а потом втянулся ;)

СМ: Не могли бы Вы привести примеры использования R в Ваших научных исследованиях?

АШ: Просто откройте страничку моих публикаций. Начиная с 2001 года, все, где есть какие-нибудь расчеты, сделано с помощью R.

СМ: Вы является русским переводчиком системных сообщений R, а также интерфейса одной из хорошо известных графических оболочек для R - R Commander. Как получилось, что Вы приняли участие в этих проектах?

АШ: Когда (кажется, это было в 2005 году) я уже довольно много напубликовал с помощью R, мне показалось, что настало время как-то выразить свою благодарность. Русский перевод был тогда сделан где-то процентов на десять. Вот я и взялся за него. R Commander очень полезен для новичков, а поскольку R в России не очень распространен, то я решил перевести и его, чтобы облегчить русскоязычным пользователям переход с графических пакетов.

СМ: В журнале Linux Format Вами в соавторстве с несколькими коллегами была опубликована серия вводных статей по R. Какова дальнейшая судьба этой серии? Можно ли читателям журнала ждать продолжения?

АШ: Эта серия стала книгой (см. ниже). Что же касается продолжения - это скорее к Евгению Балдину, поскольку именно он был основной движущей силой этих публикаций.

СМ: Перейдем, наконец, к недавно опубликованной Вами и Вашими коллегами книге "Наглядная статистика. Используем R!" - в Интернете ее уже успели окрестить "первой толстой книгой по R" на русском языке. Поздравляю с выходом этой работы! Как родилась идея написать ее? Расскажите также вкратце о Ваших соавторах.

АШ: Спасибо за поздравления. Идея родилась тогда, когда я преподавал на компьютерных курсах (2004-2005 годы). Мне хотелось устроить курс по статистике и R, но интереса мое предложение не вызвало. Тогда я стал думать и понемногу обсуждать с коллегами, как бы можно было сделать книгу. Я написал план книги и первую главу, но дальше дело не пошло. Был еще проект по переводу документации R, мы довольно много перевели на русский. Потом появилась возможность писать в Linux Format, но идея сделать книгу меня не оставляла. Летом прошлого года, довольно неожиданно для меня, через того же Евгения, на меня "вышел" директор издательства ДМК Дмитрий Мовчан, который с энтузиазмом поддержал идею о книге про R. И все заверте...

Соавторы очень разные, но самое главное - без любого них книги не было бы, я в этом абсолютно уверен. Мы все из разных городов (только двое - из Санкт-Петербурга), разных профессий, но, как видите, все увлечены R и идеей сделать его доступнее в России.

СМ: Как долго продолжалась работа над книгой?

АШ: С 2005 по декабрь прошлого года. ДМК очень быстро издало книгу.

СМ: Наверняка, читателям этого интервью будет интересно узнать – каковы основные темы, изложенные  в книге?

АШ: Идея, лежащая в основе книги - дать практический курс методов статистики без формул, но на основе R. У нас в книге всего три формулы! Темы - от введения в анализ данных до многомерных методов и временных рядов. Разумеется, есть основные тесты, корреляция, ANOVA. Плюс шесть приложений, в которых более подробно освещены особенности R.

СМ: Есть ли материал, который Вам хотелось бы, но не удалось включить в первое издание книги в силу ее ограниченного объема?

АШ: Я хотел бы включить раза в 2-3 больше практических примеров и задач. Ну и, конечно, подробнее рассказать обо всем. Особенно конспективно изложены многомерные методы и временные ряды, их надо бы серьезно расширить. Подключаемые пакеты (libraries) отражены очень мало, а их ведь сейчас уже почти четыре тысячи! Ничего нет про бутстреп, про байесовы методы, про анализ выживания, почти ничего про планирование эксперимента...

СМ: Традиционный вопрос напоследок: каковы Ваши дальнейшие планы по продвижению R среди русскоязычных пользователей? Планируете ли Вы публиковать новые работы по R?

АШ: Да, я хотел бы. Особенно если автор этого блога пойдет в соавторы. :)



5 комментариев :

ashipunov комментирует...

Нужно еще обязательно сказать, что пока я "тормозил" с написанием книги, Полина Волкова серьезно взялась за дело и опубликовала (в соавторстве со мной) небольшую книжку об анализе данных, где использованы в том числе и примеры с R. Так что, первой R-книгой на русском языке следует, наверное, считать именно ее (Волкова П.А., Шипунов А.Б. Статистическая обработка данных в научно-исследовательских работах. М., Экопресс, 2008). Сейчас вышло и второе, переработанное и дополненное, издание этой книги (М., Форум, 2012).
Кроме того, в прошлом году С.Л. Плавинский опубликовал большую и интересную книгу "Введение в биостатистику для медиков", где также широко использованы примеры на R. К сожалению, найти эту книгу практически невозможно.

Виталий Шебела комментирует...

Спасибо за книгу! :) Сильно упростила жизнь. Конечно хотелось бы поподробнее :) В следующих книгах я бы попросил в каждой отдельной главе рисовать небольшую таблицу с основными методами их аргументами и описанием, - это ускоряет визуальный поиск и запоминание, а так же оставляет в голове более четкую структуру методов. Спасибо.

Анонимный комментирует...

А, где файл leaf2-4.txt взять. На сайте издательства нет.

Sergey Mastitsky комментирует...

Этот вопрос следует адресовать редакции или попробовать связаться с авторами.

Анонимный комментирует...

Здесь http://ashipunov.info/shipunov/software/r/r-ru.htm

Отправить комментарий