10 декабря 2016

Обзор R-пакетов за ноябрь 2016 г.



Автор рисунка: Xiao Nan
По состоянию на 10 декабря 2016 г. на сайте CRAN было опубликовано около 12 тысяч пакетов для R. Такое разнообразие приложений, наряду с очень активным сообществом пользователей, является уникальным преимуществом R, по сравнению с другими языками и системами, предназначенными для анализа данных. В то же время становится все труднее находить пакеты, подходящие для решения тех или иных задач. Эта проблема особенно актуальна среди пользователей, недотостаточно владеющих английским языком. Чтобы как-то помочь таким пользователям, я буду периодически делать небольшие обзоры наиболее интересных пакетов, опубликованных или обновленных примерно за последний месяц (ниже представлен обзор для ноябрь - начало декабря 2016 г.). Безусловно, эти обзоры будут в значительной мере отражать мое собственное представление о том, что является интересным. Поэтому если я что-то упустил, сообщайте об этом в комментариях. 
  • anytime - мощный инструмент для работы с любыми форматами дат.
  • Несколько утилит от Томаса Липера (Thomas Leeper) для работы с Amazon Web Services:
  • bayesplot - набор функций для визуализации апостериорных распределений параметров моделей и диагностики качества моделей, построенных с использованием принципов байесовской статистики. В частности, содержит функции, которые позволяют работать с моделями Stan.
  • bookdown - набор утилит для подготовки книг и технической документации с помощью R Markdown.
  • diverse - предназначен для вычисления целого ряда мер энтропии, используемых в социальных и других науках. Может оказаться особенно полезным для создания новых предикторов по имеющимся переменным при разработке предсказательных моделей.
  • fastcluster - эффективная (с точки зрения скорости вычислений) реализация иерархического кластерного анализа. Пакет одновременно содержит соответствующие функции как для R, так и для Python (см. руководство пользователя).
  • Radviz (от англ. radial coordinate visualisation) - позволяет выполнять проецирование многомерных данных на двухмерную плоскость, что, в частности, будет полезным при визуализации результатов кластерного анализа (см. руководство пользователя).
  • rex - набор функций для работы с регулярными выражениями. Стандартные возможности R для работы с регулярными выражениями трудно назвать "дружественными" для пользователя. Пакет rex решает эту проблему очень удачно (см. пример).
  • tsoutliers - функции для обнаружения выбросов при работе с временными рядами (по методу Chen & Liu, 1993).
  • Strategy - пакет для разработки и оценки эффективности торговых стратегий. Имеется возможность использовать как готовые стратегии, так и добавлять свои собственные.
Сергей Мастицкий


3 комментария :

Степан Чернов комментирует...

Очень здорово если это станет традицией

Igor Magdeev комментирует...

Сергей, спасибо!

Добавил бы сюда пакет ggiraphExtra для интерактивной визуализации.
Блог с примерами: http://rpubs.com/cardiomoon/231822
Проект на гитхаб: https://github.com/cardiomoon/ggiraphExtra

Анонимный комментирует...

Сергей, рад вашему возвращению.
Раз уж зошла речь о различных пакетах, я хотел бы узнать, есть ли толковые инструкции по установке пакетов в системе Linux? Месяц назад мне понадобилось установить пакет devtools: R запустил процесс установки и стопорнулся из за отсутсвия каких-то модулей. На Stackoverflow такая проблема поднималась, но мне так и не удалось найти рабочее решение. Надобность в devtools была не срочная, поэтому отложил дальнейшие поиски до лучших времен. Может быть вы могли бы написать пост по установке R под Linux, где будут изложены подобные тонкости настройки? Я лично не встречал ни одного подобного руководства в книгах по анализу данных.

Отправить комментарий