28 июня 2015

Интересное из мира R (15 - 28 июня 2015 г.)



"Ньюсмейкером" в последние дни была компания RStudio, которая сообщила о:
  • нескольких новых пакетах: leaflet для создания интерактивных географических карт на основе известной JavaScript-библиотеки Leaflet; DT для создания интерактивных HTML-таблиц на основе библиотеки DataTables, а также d3heatmap для построения интерактивных тепловых карт в духе D3.js.
  • нескольких приятных изменениях в сервисе shinyapps.io - возможности использования пользовательских доменных имен в адресах Shiny-приложений, расширении допустимого размера приложений до 1 Gb, возможности присвоения нового имени аккаунту и др.
Из других событий:

21 июня 2015

Переобучение - фундаментальная проблема, возникающая при создании предсказательных моделей



Многие современные методы регрессии и классификации способны описать очень сложные нелинейные связи между предикторами и переменной-откликом. Однако без должного контроля со стороны исследователя модели, хорошо описывающие обучающую выборку, рискуют исказить истинный характер моделируемой связи, что приведет к невозможности воспроизвести столь же точные предсказания на новых независимых данных. Эта проблема известна как "переобучение модели" (англ. "model overfitting") и занимает одно из центральных мест в теории и практическом применении предсказательных моделей.


14 июня 2015

Интересное из мира R (1 - 14 июня 2015 г.)



  • В своем блоге Боб Мюнхен (Bob Muenchen) опубликовал результаты небольшого исследования "доли рынка" аналитического программного обеспечения на основе числа книг, опубликованных по каждой программе/системе. Выяснилось, что R занимает, как минимум, 3-е место (на 1-м и 2-м местах оказались SAS и SPSS соответственно, хотя многие книги по этим системам имеют несколько изданий, что завышает общее число публикаций по ним).
  • В блоге компании Databricks было объявлено о том, что в новый релиз Apache Spark (фреймворк для организации кластерных вычислений при работе с большими данными) будет включен пакет SparkR, который позволит использовать возможности Spark'а прямо из консоли R. Синтаксис команд SparkR похож на команды dplyr, что облегчит освоение этого нового API пользователям dplyr.
  • В блоге The DataCamp было опубликовано сообщение, в котором в сжатой и очень доступной форме обобщены 15 полезных "рецептов" работы с таблицами данных (data frames) в R.
  • На DataReview.info приведен пример сбора данных с веб-сайтов при помощи пакета rvest.
  • 15 июня на базе платформы T&P начинается бесплатный онлайн-курс "Статистический анализ даных на R".


09 июня 2015

Открыт предварительный заказ нового издания книги "Статистический анализ и визуализация данных с помощью R"



С радостью сообщаю, что опубликованная в декабре прошлого года электронная книга "Статистический анализ и визуализация данных с помощью R" будет в ближайшее время издана также в "бумажном" виде. Уже сейчас это переработанное и дополненное издание, содержащее 496 страниц, можно предварительно заказать со скидкой 20% на сайте "ДМК Пресс" (559 vs. 699 российских рублей). Опубликованная ранее электронная версия по-прежнему будет распространяться бесплатно, однако каких-либо исправлений и дополнений вносить в нее не планируется. Мой соавтор, Владимир Кириллович Шитиков, и я будем благодарны, если Вы поможете распространить эту новость. Спасибо!

UPD: Здесь можно ознакомиться с содержанием книги.

07 июня 2015

Пакет caret - универсальный интерфейс для доступа к десяткам алгоритмов машинного обучения



Использование сложных алгоритмов для построения предсказательных моделей становится все более распространенным в самых разных областях - от академических исследований до всевозможных бизнес-приложений. Среда статистических вычислений R отличается особенно высоким количеством реализованных в ней алгоритмов машинного обучения, на основе которых можно создавать подобные модели. Однако вместе с явным преимуществом наличия такого большого количества алгоритмов возникают и некоторые проблемы. В частности, для аналитика становится все сложнее помнить особенности применения и синтаксиса соответствующих R-функций. Кроме того, функции, позволяющие реализовать полный цикл разработки предсказательных моделей, часто "разбросаны" по разным пакетам, что требует времени для поиска необходимых функций и их освоения. В связи с этим доктор Макс Кун (Max Kuhn; директор отдела неклинических исследований в компании Pfizer) предпринял попытку разработать универсальный интерфейс, предоставляющий доступ к основым алгоритмам машинного обучения, реализованным в R и других специализированных статистических системах (например, Weka). Результатом этой работы стал пакет caret (от "classification and regression training"). Первая статья с описанием основных возможностей этого пакета, была опубликована Максом в журнале Journal of Statistical Software в 2008 г. Сегодня caret стал одним из наиболее популярных инструментов среди пользователей R, занимающихся разработкой предсказательных моделей.