29 марта 2015

Интересное из мира R (23-29 марта 2015 г.)



  • Во вторник на этой неделе состоялся вебинар "Reproducibility with Revolution R Open and the Checkpoint Package", организованный, как несложно догадаться, компанией Revolution Analytics. Обсуждался пакет checkpoint, который обеспечивает работоспособность любого кода R за счет создания локальных репозиториев всех пакетов, задействованных в том или ином проекте (подробнее см. здесь и здесь). Ниже представлена презентация с этого вебинара.


27 марта 2015

Диагностика линейных регрессионных моделей. Часть 3



Это сообщение является последним по теме диагностики линейных моделей (см. первые две части здесь и здесь). Обсуждение этой темы мы завершим рассмотрением наиболее распространенных количественных показателей, позволяющих обнаружить влиятельные наблюдения. Как следует из их названия, влиятельные наблюдения оказывают существенное воздействие на оценки коэффициентов регрессионной модели. Такие наблюдения обладают как минимум одним из рассмотренных ранее свойств, т.е. являются либо выбросами, либо имеют высокий потенциал воздействия, но чаще всего в определенной степени сочетают в себе оба этих свойства.


22 марта 2015

Интересное из мира R (16-22 марта 2015 г.)



  • Роберт Мюнхен (Robert Muenchen, автор таких книг, как "R for SAS and SPSS users" и "R for Stata users") опубликовал в своем блоге интересную статью с советами по поводу того, "как помочь вашей организации перейти на R".
  • Джулиан Хиллебранд (Julian Hillebrand) привел в своем блоге Think to Start подробный пример работы с LinkedIn API средствами R.
  • Боб Рудис (Bob Rudis) сообщил о созданном им пакете waffle, который позволяет создавать т.н. "вафельные" диаграммы (одна из альтернатив круговым диаграммам - см. пример ниже).

    Источник: http://rud.is

  • Дэвид Робинсон (David Robinson) привел примеры возможностей своего пакета broom, который позволяет преобразовывать результаты вычислений нескольких базовых функций R (lm(), nls(), kmeans() и др.) в опрятно оформленные таблицы. Такие таблицы далее легко использовать для последующих вычислений или построения графиков.
  • В блоге "Язык R в финансах и экономике" опубликован интересный пример реализации стратегии парного трейдинга.

15 марта 2015

Интересное из мира R (9-15 марта 2015 г.)



  • Гарет Гролмунд (Gareth Grolemund) из RStudio опубликовал очень полезную шпаргалку по созданию пакетов R, которую можно скачать по этой ссылке. Шпаргалки от RStudio по другим темам можно найти здесь.
  • При выполнении параллельных вычислений в R (например, при помощи пакета foreach) часто хочется иметь индикатор процесса, чтобы знать, сколько времени осталось до завершения задачи. В блоге Revolutions опубликована статья с примером того, как такой индикатор можно написать самостоятельно, если используемые пакеты не имеют готовых решений.
  • Новая версия популярной программы для визуализации данных и создания дэшбордов Tableau v9.0 будет способна напрямую считывать файлы данных в формате R.
  • В блоге "Язык R в финансах и экономике" опубликована интересная статья, описывающая применение метода случайного леса для предсказания цены акций.
  • Я начал работу по переводу книги "An Introduction to Statistical Learning with Applications in R" на русский язык. Книга будет опубликована издательством ДМК Пресс (см. также здесь и здесь) примерно в начале следующего года.

11 марта 2015

Книга Петера Флаха по машинному обучению переведена на русский язык



Издательство "ДМК Пресс", в котором ранее вышли книги А. Б. Шипунова и соавт. "Наглядная статистика. Используем R!" и Р. Кабакова "R в действии. Анализ и визуализация данных на языке R", продолжает радовать новинками - на прошлой неделе был опубликован перевод известной книги Петера Флаха по машинному обучению (Peter Flach, "Machine Learning. The Art and Science of Algorithms that Make Sense of Data").

Эта новая книга, которая на русском языке вышла под названием "Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных" стала первой из планируемой издательством серии работ по машинному обучению. Благодаря ясному изложению, хорошей организации и большому числу подробно рассматриваемых примеров, оригинал книги П. Флаха хорошо известен и популярен среди академических исследователей и практикующих аналитиков. В этой работе рассматривается широкий круг современных методов машинного обучения, предназначенных для решения задач регрессии, классификации, кластеризации и создания списков правил. Большое внимание уделяется роли входных признаков и способам их конструирования. Наконец, целая глава посвящена ансамблям моделей. Отлично оформленное переводное издание (в цвете, твердая обложка) ни в чем не уступает оригиналу. Особенно порадовал очень качественный перевод. 

Настоятельно рекомендую всем, кто интересуется машинным обучением и теорией соответствующих методов! Такие хорошие книги встречаются не часто.