15 июня 2016

Проект "R: Анализ и визуализация данных" - подводя итоги



Динамика количества просмотров страниц сайта (за месяц)
в период с апреля 2011 г. по июнь 2016 г.
Пять лет назад я начал вести этот блог с целью "...сделать посильный вклад в продвижение R среди русскоязычных пользователей". За это время было опубликовано >190 статей, и количество посетителей сайта постоянно росло (см. рисунок). Кроме того, в рамках этого же проекта был выполнен перевод официального руководства по работе с RStudio, опубликована книга, обобщающая и значительно дополняющая представленные здесь материалы, а также выполнен перевод одной из наиболее значимых работ по методам статистического обучения и R. Хочется думать, что указанная выше цель была, хотя бы отчасти, достигнута.

Как известно, все имеет свое начало и свой конец. Мои личные обстоятельства в последнее время складываются таким образом, что, к сожалению, я больше не могу уделять должного внимания этому блогу и всему, что с ним связано (что неизбежно сказывается на качестве). В связи с этим я вынужден сообщить, что блог "R: Анализ и визуализация данных" прекращает свое существование и больше не будет обновляться, хотя сам сайт и все его содержимое по-прежнему будут доступны для всех желающих. Кроме того, по-прежнему будет существовать страница этого проекта в Facebook, где я буду время от времени "появляться". Многое из задуманного не получилось довести до конца (см., например, здесь и здесь), но надеюсь, друзья, что вы отнесетесь к этому с пониманием. Ваша поддержка всегда для меня много значила, и я безмерно за нее благодарен.

Успехов вам в дальнейшем освоении R!

12 июня 2016

Интересное из мира R (23 мая - 12 июня 2016 г.)



  • Согласно последним данным, собранным Бобом Мюнхеном (Bob Muenchen), в прошлом году язык R превзошел SAS по частоте использования в научных публикациях и занял второе место после SPSS Statistics. Подробнее о том, как Боб собирает эти данные уже в течение 4 лет, а также о получаемых результатах можно узнать здесь.
  • На прошедшем в начале июня в Сан-Франциско саммите по Spark'у компания IBM официально объявила о том, что она присоединилась к R Consortium в качестве "платинового спонсора". Это стало еще одним сигналом растущей значимости R в корпоративном мире. Ожидается, что участие IBM придаст дальнейший толчок проектам, над которыми работает R Консорциум.
  • На сайте издательства Manning Publications можно бесплатно (после регистрации) скачать электронную книгу "Exploring Data Science", в которую входят пять глав по таким темам, как разведочный анализ данных, глубокое обучение и нейронные сети, анализ текстов, а также моделирование зависимостей с помощью методов байесовской статистики.
  • Тал Галили (Tal Galili) сообщил о релизе своего нового пакета - heatmaply, позволяющего создавать интерактивные "тепловые карты" (heatmaps; см. пример ниже). Руководство по использованию этого пакета можно найти здесь.



  • В декабре 2015 г. компания Microsoft объявила о релизе своего сервиса по распознаванию эмоций на фотографиях людей (бесплатно можно анализировать до 30000 изображений в месяц). В статье Дэниела Боллера (Daniel Boller) на сайте thinktostart.com можно ознакомиться с примерами использования этого сервиса из среды R через соответствующий API.


22 мая 2016

Интересное из мира R (25 апреля - 22 мая 2016 г.)



  • Работа с GitHub из командной строки может оттолкнуть многих потенциальных пользователей этого замечательного инструмента. Но отчаиваться не стоит - для Git/GitHub существует несколько графических оболочек. Об одной из них, а также об основах работы с GitHub в RStudio, детально можно узнать в серии уроков "GitHub for Data Scientists without the terminal", подготовленных Сахиром Бхатнагаром (Sahir Bhatnagar).
  • Через несколько недель выйдет новая версия Apache Spark - v2.0 - чрезвычайно популярной платформы для работы с большими данными, которая, как обещают разработчики, теперь будет обеспечивать еще большую скорость вычислений. Уже сейчас для ознакомления доступна предварительная версия этого нового релиза. Напомню, что со Spark'ом можно работать непосредственно из среды R при помощи пакета SparkR.
  • Компания RStudio объявила о разработанном ими новом R-пакете - flexdashboard, который позволяет создавать очень эффектные "панели индикаторов", используя простой Markdown-синтаксис.
  • Вышла новая версия OpenCPU - v1.6. OpenCPU - это хорошо отлаженная и популярная система, позволяющая выполнять функции R посредством API-запросов по HTTP-протоколу. Подробнее о OpenCPU можно узнать из приведенного ниже видео.



  • Стоило Google выпустить API для своего (прекрасно работающего!) сервиса распознавания изображений, как спустя несколько месяцев вышел пакет для работы с этим сервисом из среды R - RoogleVision. С примерами использования этого пакета можно ознакомиться в блоге его создателя - Флориана Тешнера (Florian Teschner).

19 мая 2016

Опечатки и технические ошибки в первом издании книги "Введение в статистическое обучение с примерами на языке R"



Друзья, вот уже который день я пребываю в глубокой печали и посыпаю голову пеплом, а именно с тех пор, как стали приходить письма от читателей первого издания книги "Введение в статистическое обучение..." с сообщениями об обнаруженных ими опечатках и технических ошибках. Несмотря на все усилия с моей стороны и помощь нескольких человек с вычиткой рукописи, ошибки, к огромному сожалению, имеют место. Увы, единственное, что я могу сделать сейчас - это извиниться за такое качество работы и привести список обнаруженных проблем. С этим списком можно ознакомиться на GitHub-странице проекта. Если вы нашли что-то, что еще не перечислено в этом списке, пожалуйста, свяжитесь со мной по электронной почте, указанной в книге в разделе "От переводчика". Заранее спасибо!

15 мая 2016

Деревья решений. Часть I: Введение



Алгоритмы обучения с учителем, основанные на использовании деревьев решений (англ. "decision trees"; в русскоязычных источниках используются также термины "деревья принятия решений", "деревья классификации и регрессии" (от "regression and classification trees, CART"), "решающие деревья" и др.) чрезвычайно популярны. Эта популярность обусловлена несколькими причинами: