18 октября 2014

Знакомьтесь - Revolution R Open



15 октября 2014 г. компания Revolution Analytics объявила о выпуске разработанного ею усовершенствованного дистрибутива R - Revolution Open R (далее "ROR"). ROR базируется на текущей официальной версии языка R (3.1.1) от R Foundation for Statistical Computing и, соответственно, обладает полной совместимостью любых скриптов и пакетов, работающих на основе R 3.1.1. Отличительными особенностями ROR являются следующие:
  • Автоматическая поддержка многопроцессорных вычислений при выполнении операций линейной алгебры, реализованная за счет замены стандартных методов решения задач линейной алгебры из пакетов LAPLACK и BLAS соответствующими функциями из библиотеки Intel Math Kernel Library. Пользователю нет нужды изменять существующий R код - при выполнении вычислений с векторами и матрицами вся мощность имеющихся процессоров будет задействована автоматически, что в результате приведет к существенному повышению скорости вычислений.
  • ROR поставляется с Reproducible R Toolkit ("набор инструментов, обеспечивающих воспроизводимость R кода"). Большинство существующих R-скриптов используют как минимум один пакет, распространяемый через хранилище CRAN. Однако ежедневно происходит обновление значительной части этих пакетов, что может привести к устареванию имеющегося кода и возникновению ошибок при его выполнении. Для устранения этой распространенной проблемы компания Revolution Analytics запустила сайт MRAN (Managed R Archive Network), который ежедневно выполняет "слепок" текущего состояния хранилища CRAN (начиная с 17 сентября 2014 г.). Доступ к этим слепкам обеспечивается при помощи функции checkpoint() из одноименного пакета. При вызове этой функции необходимо указать дату "контрольной точки" (обычно это будет дата создания скрипта: например, checkpoint("2014-10-17")), что приведет к локальной установке задействованных пакетов в папке проекта. Версии этих локально устанавливаемых пакетов соответствовуют версиям, которые были актуальны по состоянию на указываемую дату, обеспечивая тем самым полную работоспособность кода. Помимо того, что сайт MRAN работает как "машина времени", на нем можно также выполнять поиск интересующих пользователя пакетов по алфавитному списку и по темам.
ROR распространяется совершенно бесплатно, доступен для всех основных операционных систем и совместим с RStudio.

05 октября 2014

Документация по пакету dplyr на русском языке



В одном из комментариев к статье о dplyr, я узнал про существование русскоязычного перевода руководства по использованию этого пакета. С удовольствием делюсь ссылкой. Кроме того, на сайте Github можно найти RMarkdown-исходник этого документа.

20 сентября 2014

В Лондоне прошла конференция "Эффективные применения языка R"



На этой неделе мне довелось побывать на первой конференции "Effective Applications of the R Language (EARL)" ("Эффективные применения языка R"), организованной в Лондоне консалтинговой компанией Mango Solutions. В отличие от ежегодной конференции UseR, где обсуждаются в основном технические аспекты R, EARL была задумана как платформа, где ее участники смогли бы продемонстрировать примеры внедрения аналитических решений на основе R в бизнес-процессы и обменяться соответствующим опытом.

17 сентября 2014

Диагностика линейных регрессионных моделей. Часть 1



Оценка параметров линейной регрессионной модели вида \(y_i = \beta_0 + \beta_1x_{i1} \dots + \beta_px_{ip} + \epsilon_i\), равно как и выводы в отношении статистической значимости этих параметров, базируются на выполнении ряда математических допущений. Диагностика выполнения этих допущений является составной частью процесса построения регрессионной модели и сводится к следующим составляющим (Faraway 2004):
  • проверка допущений в отношении остатков модели;
  • проверка адекватности структуры систематической части модели;
  • обнаружение необычных наблюдений.
Существуют как графические, так и формальные методы диагностики линейных моделей. Хотя формальные методы используются реже, они доступны в нескольких R-пакетах (см., в частности, car и lmtest). Настоящее сообщение посвящено более распространенным графическим методам. Более того, здесь рассмотрены только первые два из указанных выше пунктов. Обнаружение необычных наблюдений - большая тема, которой будет посвящено отдельное сообщение.

27 июля 2014

Знакомьтесь - tidyr



На днях в официальном блоге RStudio проф. Хэдли Уикхэм объявил о выходе своего нового пакета - tidyr, функции которого предназначены для подготовки "опрятных" (англ. tidy) данных. Ниже приведен перевод этого объявления.




14 июля 2014

Книга "Наглядная статистика. Используем R!" теперь в свободном доступе



В 2012 г. была опубликована первая "толстая" книга по R на русском языке "Наглядная статистика. Используем R!". Как сообщил один из авторов этой книги, теперь она доступна в открытом доступе в виде PDF-файла: http://ashipunov.info/shipunov/school/books/rbook.pdf

P.S.: Здесь можно почитать интервью, которое ранее мне дал первый автор книги - Алексей Шипунов.