![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhgyNW6ra4YDKdOgu78DWxzN2OkVvVJc0gep00zzFrQfzgsjDVrxNJISDEhqBaX6qcRMOCbs0_XfDUMMTS3F8Ud4y2N5MY_1az3k7RsNcnhaVkDWUWN_0Rw9XlPgbp_p5AlxNAgYehQ7z0O/s1600/pass.jpg)
Началу конференции предшествовали два семинара - "Fast and flexible data wrangling with data.table" ("Быстрые и гибкие преобразования данных при помощи data.table) и "Getting the best of both worlds: Using Python for data wrangling and R for statistics" ("Лучшее из обоих миров: использование Python для преобразования данных и R - для статистики"). Поскольку в последнее время мне приходится работать со все большими объемами данных, я выбрал первый из этих семинаров. Как известно, размер объектов, с которыми можно комфортно работать в базовой версии R, ограничивается объемом доступной оперативной памяти. Более того, оперативная память расходуется очень неэффективно, т.к. R "любит" создавать временные копии имеющихся объектов при их изменении. Пакет data.table был создан Mэтом Доули (Matt Dowle) для обхождения этих ограничений при работе с большими таблицами данных. Процедуры, входящие в состав пакета, преобразуют таблицы данных непосредственно, без создания каких-либо дополнительных копий, и написаны на C++, что обеспечивает их быстродействие. Возможности пакета впечатляют (особенно такие опции, как быстрая загрузка больших таблиц в R (функция fread()), расчет обобщающих статистик для групп данных, и объединение (join) таблиц по временным рядам). Тем не менее, освоение синтаксиса data.table требует некоторого времени.
Одним из приглашенных докладчиков, открывавших конференцию, был Хэдли Уикхэм (Hadley Wickham) - автор многочисленных приложений для R, включая такие популярные пакеты, как ggplot2, reshape2, plyr, и др. В своем докладе Хэдли представил возможности пакета dplyr, который, подобно data.table, предназначен для организации эффективной работы с большими таблицами данных. Хотя в определенных ситуациях dplyr уступает data.table в быстродействии, разница эта невелика и, по моему субъективному мнению, полностью компенсируется удивительной простотой синтаксиса dplyr, которая обеспечивается использованием нового оператора пошаговых вычислений %>% (англ. pipe operator) из пакета magrittr. (Кстати, введение этого оператора уже называют самой большой инновацией в мире R за последнее время). Кроме того, важным свойством dplyr является возможность прямого подключения к базам данных нескольких распространенных типов и выполнения вычислений на стороне сервера (см. пример здесь).
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEis33WlM2j-DWx_5w9dQRhKxsRF3DKFVVDCY80MfcmvGC_u_aOgb67hhQ7G6iHaoa6HThiQ75p9djpuafbq1l0GU3qLS0VOlth3n5OPVh_qtUpkFHPSSxZK39B5vN7ARPiZ0j2BgRCQkaFf/s1600/cloud.jpg)
Планируется, что конференция EARL станет ежегодной. Место и время проведения следующей конференции будут объявлены на ее сайте. Там же вскоре можно будет найти слайды презентаций, сделанных в этом году.
Отправить комментарий