19 января 2014

Знакомьтесь - dplyr



В блоге проекта RStudio, проф. Хэдли Укхэм сообщил о выходе нового пакета для R - dplyr. Те, кто знаком с работой Хэдли, увидят сходство в названии этого нового пакета с plyr - одного из наиболее популярных в настоящее время R-расширений для эффективной манипуляции объектов с данными (разбиение объекта на части, выполнение определенных вычислений над этими частями, и объединение результатов в виде нового объекта). В отличие от plyr, dplyr предназначен для работы только с таблицами данных (англ. data frames), включая таблицы из баз данных MySQL, PostgreSQL, SQLite, и Google BigQuery. Кроме того, отличительными особенностями dplyr являются простота синтаксиса команд и, что особенно важно сегодня при обработке больших объемов данных, быстродействие. Примеры соответствующих команд, а также сравнивнение быстродействия plyr и ddplyr можно найти в упомянутом выше сообщении блога RStudio. Обратите внимание: dplyr доступен только для актуальной версии R (v 3.0.2), так что перед его установкой, возможно, Вам сначала придется обновить R.


5 комментариев :

diaman комментирует...

не верится, что по скорости будет хотя бы что-то близкое к data.table. Будет время, протестирую. В приведенных бенчмарках http://cran.r-project.org/web/packages/dplyr/vignettes/benchmark-baseball.html непонятно, есть ли индексы в таблице dt_raw. По всей видимости нет.

Sergey Mastitsky комментирует...

Сравнение с data.table - естественный вопрос, который сразу же возник после публикации сообщения о dplyr. Согласно Хэдли, dplyr сравним с data.table - см. обсуждение в блоге RStudio. В любом случае, если Вы выполните какие-либо сравнения, отпишитесь сюда о результатах. Спасибо!

Анонимный комментирует...

Я тут перевел немного http://rpubs.com/aa989190f363e46d/dplyr_intro , на тот случай если кому-то кдобнее на русском вникать.

Слог не бог весть какой, так что замечания я принимаю на почту , если нужно могу отдать сорец в Rmd.

Sergey Mastitsky комментирует...

Замечательно! Спасибо за старания. Если Вы не против, я вынесу эту новость в отдельное сообщение, чтобы его увидели больше людей.

Анонимный комментирует...

Нет, я совершенно не против. Вот еще гист с сорцом https://gist.github.com/aa989190f363e46d/e65b46dcba8874a202fe , а то я что-то сразу не сообразил.

Отправить комментарий