В блоге проекта RStudio, проф. Хэдли Укхэм сообщил о выходе нового пакета для R - dplyr. Те, кто знаком с работой Хэдли, увидят сходство в названии этого нового пакета с plyr - одного из наиболее популярных в настоящее время R-расширений для эффективной манипуляции объектов с данными (разбиение объекта на части, выполнение определенных вычислений над этими частями, и объединение результатов в виде нового объекта). В отличие от plyr, dplyr предназначен для работы только с таблицами данных (англ. data frames), включая таблицы из баз данных MySQL, PostgreSQL, SQLite, и Google BigQuery. Кроме того, отличительными особенностями dplyr являются простота синтаксиса команд и, что особенно важно сегодня при обработке больших объемов данных, быстродействие. Примеры соответствующих команд, а также сравнивнение быстродействия plyr и ddplyr можно найти в упомянутом выше сообщении блога RStudio. Обратите внимание: dplyr доступен только для актуальной версии R (v 3.0.2), так что перед его установкой, возможно, Вам сначала придется обновить R.


4 Комментарии

diaman написал(а)…
не верится, что по скорости будет хотя бы что-то близкое к data.table. Будет время, протестирую. В приведенных бенчмарках http://cran.r-project.org/web/packages/dplyr/vignettes/benchmark-baseball.html непонятно, есть ли индексы в таблице dt_raw. По всей видимости нет.
Sergey Mastitsky написал(а)…
Сравнение с data.table - естественный вопрос, который сразу же возник после публикации сообщения о dplyr. Согласно Хэдли, dplyr сравним с data.table - см. обсуждение в блоге RStudio. В любом случае, если Вы выполните какие-либо сравнения, отпишитесь сюда о результатах. Спасибо!
Sergey Mastitsky написал(а)…
Замечательно! Спасибо за старания. Если Вы не против, я вынесу эту новость в отдельное сообщение, чтобы его увидели больше людей.
Анонимный написал(а)…
Нет, я совершенно не против. Вот еще гист с сорцом https://gist.github.com/aa989190f363e46d/e65b46dcba8874a202fe , а то я что-то сразу не сообразил.
Новые Старые