Автор: Сергей Мастицкий
Рисунок заимствован с сайта https://www.r-consortium.org |
Традиционно попытаюсь подвести итоги 2016 г., перечислив пять наиболее важных (на мой взгляд) событий и тенденций, имевших место в этом году в мире R. Если упустил что-то интересное, пожалуйста, сообщите об этом в комментариях.
- IDE RStudio v1.0. В ноябре компания RStudio объявила о выходе новой версии (1.0) их одноименного IDE для R. Это был 10-й крупный релиз этого продукта, начиная с февраля 2011 г. В состав RStudio v1.0 вошло большое количество нововведений, среди которых стоит отметить следующие:
- работа с R Notebooks - инструментом для интерактивного исполнения R-кода и одновременного документирования получаемых результатов;
- интеграция с функционалом пакета sparkyr (см. ниже);
- интеграция с функционалом пакета profvis, предназначенного для выполнения профилирования R-кода;
- улучшенные средства импорта данных (на основе пакетов readr, readxl и haven);
- возможность создавать несложные веб-сайты и документы размером с книгу при помощи языка разметки R Markdown.
- Создание пакета sparklyr. Apache Spark - это чрезвычайно популярный инструмент для выполнения вычислений над "большими данными". Разработанный компанией RStudio пакет sparklyr представляет собой R-интерфейс для работы с этим инструментом. Важными особенностями sparklyr (в отличие от, например, встроенного в Spark пакета sparkR) являются следующие:
- возможность написания легко читаемого кода с использованием синтаксиса, принятого в пакете dplyr;
- пользователи R могут работать с большинством алгоритмов машинного обучения, реализованных в Spark'овской библиотеке MLlib;
- как было отмечено выше, sparklyr интегрирован в RStudio v1.0, что делает работу с ним еще удобнее.
- Релиз платформы Steam. Компания h20.ai выпустила Steam (под лицензией AGPL) - платформу, которая позволяет "...от начала и до конца выстроить весь процесс создания и разворачивания "умных" приложений". Если говорить "немаркетинговым" языком, то эта платформа помогает наладить совместную работу аналитиков, разрабатывающих предсказательные модели на базе движка h2o (поддерживаются такие языки программирования, как R, Python и Java), и разработчиков приложений (последние "потребляют" предсказания моделей посредством запросов к соответствующим API, которые можно легко опубликовать с помощью Steam). Выстраивание подобной связи между аналитиками и разработчиками эффективным образом - большая головная боль многих компаний, которые пытаются внедрять предсказательные модели в свои бизнес-процессы. В этом смысле Steam - платформа с большим потенциалом, особенно если учесть, что в состав h2o входят одни из наиболее эффективных алгоритмов машинного обучения среди существующих. Подробнее о Steam можно узнать из официальной документации, а также из приведенного ниже видео.
- Проект RL10N. Создание Концсорциума R (R Consortium) начинает приносить первые плоды. Одним из восьми проектов, профинансированных этой организацией в 2016 г., стал "RL10N" - проект, целью которого является создание инфраструктуры, облегчающей локализацию R-приложений на языки, отличные от английского. Первым результатом работы над этим проектом стала разработка пакета poio, с помощью которого можно легче выполнять перевод сообщений, генерируемых R-функциями (поддерживаются все языки из списка ISO 639).
- Книги по R на русском языке. В московском издательстве ДМК Пресс в 2016 г. вышло три книги по R:
- Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р. (2016) Введение в статистическое обучение с примерами на языке R. - М.: ДМК Пресс, 460 с. - пер. с англ. С. Э. Мастицкого.
К сожалению, в первое издание этой книги закралось большое количество опечаток и ошибок технического характера. В начале 2017 г. выйдет второе издание с исправлениями обнаруженных недочетов. - Мастицкий С. Э. (2016) Визуализация данных с помощью ggplot2. - М.: ДМК Пресс, 222 с. См. примеры кода из книги здесь.
- Храмов Д. А. (2016) Сбор данных в Интернете на языке R. - М.: ДМК Пресс, 283 с.
С наступающим Новым Годом! Добра и мира вам и вашим близким!
(https://powerbi.microsoft.com/en-us/guided-learning/powerbi-learning-3-11h-r-visual-integration/)
В октябре 16-го анонсировали использование R для обработки полученных в модель данных в части трансформации, заполнения пропусков и т.д.
(https://powerbi.microsoft.com/en-us/documentation/powerbi-desktop-r-in-query-editor/)
В декабре 16-го анонсировали интеграцию Power BI с IDE (на примере с RStudio:
https://powerbi.microsoft.com/en-us/documentation/powerbi-desktop-r-ide/)
Отправить комментарий