19 апреля 2015

Интересное из мира R (13-19 апреля 2015 г.)



  • Вышла новая версия R v3.2.0. В этой версии разработчиками был сделан упор на оптимизацию быстродействия (в духе того, как это реализовано в pqR) и работы с данными большого объема (например, теперь без труда можно выполнять операции cbind/rbind над матрицами, содержащими более 2 млрд. элементов).
  • Вводные уроки по R на платформе DataCamp теперь стали бесплатными. Подробнее см. здесь.
  • Хэдли Уикхэм объявил о выходе своего нового пакета readxl, предназначенного для облегчения загрузки данных из Excel  в R. Пакет без проблем работает на машинах под управлением все распространенных операционных систем и не требует установки никаких дополнительных компонентов.
  • Маркус Гесманн в своем блоге привел полезный пример того, как к графику, построенному при помощи ggplot2, можно добавить таблицу со сводной информацией по изображенным данным.
  • "Священная война" между приверженцами R и Python не утихает. На сайте datareview.info была опубликована переводная статья, в которой проводится сравнение графических возможностей пакетов ggplot2 (R) и Seaborn (Python).

12 апреля 2015

Интересное из мира R (6-12 апреля 2015 г.)



  • В блоге RStudio Хэдли Уикхэм (Hadley Wickham) объявил о выходе своего нового пакета readr, предназначенного для импорта данных в среду R. В отличие от функций базовой версии R, функции пакета readr работают в среднем в 10 раз быстрее.
  • 15 апреля Уинстон Чэнг (Winston Chang) из RStudio проведет вебинар по созданию интерактивных дэшбордов при помощи Shiny. Желающие принять участи в этом вебинаре могут зарегистироваться здесь.
  • Некто Bart6114 у себя блоге объявил о создании sparklines - пакета для R, который позволяет строить искрографики подобные тем, что реализованы в известной библиотеке jQuery Sparklines. Этот новый пакет отлично подойдет для создания отчетов и других подобных документов с использованием R Markdown.
  • Джон Мушелли (John Muschelli) объявил у себя в блоге о созданном им пакете matlabr, который, как не сложно догадаться из названия, позволяет выполнять код Matlab из среды R.
  • На Хабрахабре была опубликована интересная статья с примером использования R для мониторинга цен у фирм-конкурентов. По сути, описывается создание простого парсера html-страниц средствами R.

04 апреля 2015

Интересное из мира R (30 марта - 5 апреля 2015 г.)



  • Импорт данных в R из Excel - довольно распространенная операция. Несмотря на наличие нескольких пакетов, позволяющих выполнять эту задачу, часто пользователи сталкиваются с разного рода проблемами. В блоге компании DataCamp опубликованы пошаговые инструкции загрузки данных из Excel в R, которые помогут обойти наиболее частые проблемы.
  • Той же компанией DataCamp объявлен запуск бесплатного курса по R (R Fundamentals), состоящего из нескольких видео-лекций.
  • Гарет Гролмунд (Gareth Grolemund) из RStudio опубликовал очередную шпаргалку - на этот раз по визуализации данных при помощи пакета ggplot2. Шпаргалки от RStudio по другим темам можно найти здесь.
  • Маркус Гесман (Markus Gesmann) в своем блоге mages' blog привел пример работы с пакетом rpivotTable, позволяющим создавать интерактивные сводные таблицы в духе Pivot-таблиц Excel непосредственно в среде R.
  • Александр Крот опубликовал на Хабрахабре статью, в которой поделился своим опытом работы с большими данными в компании Билайн. Помимо прочих инструментов, в компании активно используют R для прототипирования различных моделей.

03 апреля 2015

Метод "случайный лес" помогает понять факторы, определяющие расселение чужеродного вида



Двустворчатый моллюск дрейссена речная (Dreissena polymorpha) является одним из наиболее агрессивных пресноводных видов-вселенцев. Выходец из Понто-Каспийского региона, этот вид сегодня встречается практически на всей территории Европы, а также во многих водоемах Северной Америки. Вселение дрейссены вызывает значительные экосистемные изменения в водоемах и часто приводит к существенному экономическому урону (см., например, список публикаций здесь). В связи с этим важно иметь возможность заблаговременно предсказывать вероятность появления дрейссены в конкретном водоеме и формирования устойчивой популяции моллюска.


29 марта 2015

Интересное из мира R (23-29 марта 2015 г.)



  • Во вторник на этой неделе состоялся вебинар "Reproducibility with Revolution R Open and the Checkpoint Package", организованный, как несложно догадаться, компанией Revolution Analytics. Обсуждался пакет checkpoint, который обеспечивает работоспособность любого кода R за счет создания локальных репозиториев всех пакетов, задействованных в том или ином проекте (подробнее см. здесь и здесь). Ниже представлена презентация с этого вебинара.