23 ноября 2014

Интересное из мира R (17-23 ноября 2014)



  • Стало известно, что 19 января 2015 г. проф. Тревор Хасти (Trevor Hastie; Стэнфордский Университет) и проф. Роберт Тибширани (Robert Tibshirany; Стэнфордский Университет) начнут очередной цикл своего бесплатного онлайн-курса "Статистическое обучение" (Statistical Learning). Это вводный курс с упором на регрессионные модели и алгоритмы классификации, основанный на книге "An introduction to statistical modeling" (настоятельно рекомендую ее всем, кто интересуется современными методами статистики и машинного обучения!). Все рассматриваемые в ходе курса примеры реализованы в R. Зарегистрироваться можно уже сайчас.

17 ноября 2014

Интересное из мира R (10-16 ноября 2014)



Этим сообщением я начинаю новую рубрику "Интересное из мира R" (вдохновил меня на это еженедельный "обзор наиболее интересных материалов по анализу данных и машинному обучению", публикуемый на Хабрахабре). По мере возможностей, каждую неделю я планирую публиковать краткий обзор пяти событий и/или публикаций, имеющих отношение к R, которые, по моему субъективному мнению, заслуживают внимания. Вот список за эту неделю:

11 ноября 2014

Рейтинг TIOBE за ноябрь 2014 г.: R на пути в список топ-10 языков программирования



Согласно рейтингу языков программирования, ежемесячно составляемому голландской компанией TIOBE, в этом году R имеет шансы попасть в список топ-10 языков. Об этом свидетельствует неуклонный рост популярности R, о чем говорит, в частности, перемещение этого языка в рейтинге TIOBE с 15 позиции в октябре на 12 в ноябре (для сравнения, два года назад R находился примерно на 25-м месте). Важно отметить, что данный рейтинг отражает лишь популярность того или иного языка программирования и не ставит своей целью выяснить, какой из них является лучшим. Подробнее о критериях, используемых TIOBE для составления рейтинга, можно узнать здесь.

Ниже приведена оригинальная таблица с сайта TIOBE, в которой отражены данные по 20 верхним позициям за ноябрь 2014 г.


18 октября 2014

Знакомьтесь - Revolution R Open



15 октября 2014 г. компания Revolution Analytics объявила о выпуске разработанного ею усовершенствованного дистрибутива R - Revolution Open R (далее "ROR"). ROR базируется на текущей официальной версии языка R (3.1.1) от R Foundation for Statistical Computing и, соответственно, обладает полной совместимостью любых скриптов и пакетов, работающих на основе R 3.1.1. Отличительными особенностями ROR являются следующие:
  • Автоматическая поддержка многопроцессорных вычислений при выполнении операций линейной алгебры, реализованная за счет замены стандартных методов решения задач линейной алгебры из пакетов LAPLACK и BLAS соответствующими функциями из библиотеки Intel Math Kernel Library. Пользователю нет нужды изменять существующий R код - при выполнении вычислений с векторами и матрицами вся мощность имеющихся процессоров будет задействована автоматически, что в результате приведет к существенному повышению скорости вычислений.
  • ROR поставляется с Reproducible R Toolkit ("набор инструментов, обеспечивающих воспроизводимость R кода"). Большинство существующих R-скриптов используют как минимум один пакет, распространяемый через хранилище CRAN. Однако ежедневно происходит обновление значительной части этих пакетов, что может привести к устареванию имеющегося кода и возникновению ошибок при его выполнении. Для устранения этой распространенной проблемы компания Revolution Analytics запустила сайт MRAN (Managed R Archive Network), который ежедневно выполняет "слепок" текущего состояния хранилища CRAN (начиная с 17 сентября 2014 г.). Доступ к этим слепкам обеспечивается при помощи функции checkpoint() из одноименного пакета. При вызове этой функции необходимо указать дату "контрольной точки" (обычно это будет дата создания скрипта: например, checkpoint("2014-10-17")), что приведет к локальной установке задействованных пакетов в папке проекта. Версии этих локально устанавливаемых пакетов соответствовуют версиям, которые были актуальны по состоянию на указываемую дату, обеспечивая тем самым полную работоспособность кода. Помимо того, что сайт MRAN работает как "машина времени", на нем можно также выполнять поиск интересующих пользователя пакетов по алфавитному списку и по темам.
ROR распространяется совершенно бесплатно, доступен для всех основных операционных систем и совместим с RStudio.

05 октября 2014

Документация по пакету dplyr на русском языке



В одном из комментариев к статье о dplyr, я узнал про существование русскоязычного перевода руководства по использованию этого пакета. С удовольствием делюсь ссылкой. Кроме того, на сайте Github можно найти RMarkdown-исходник этого документа.

20 сентября 2014

В Лондоне прошла конференция "Эффективные применения языка R"



На этой неделе мне довелось побывать на первой конференции "Effective Applications of the R Language (EARL)" ("Эффективные применения языка R"), организованной в Лондоне консалтинговой компанией Mango Solutions. В отличие от ежегодной конференции UseR, где обсуждаются в основном технические аспекты R, EARL была задумана как платформа, где ее участники смогли бы продемонстрировать примеры внедрения аналитических решений на основе R в бизнес-процессы и обменяться соответствующим опытом.