На этой неделе в Лондоне прошла 2-я конференция "Effective Applications of the R Language (EARL)" ("Эффективные применения языка R"), организованная консалтинговой компанией Mango Solutions (первая конференция состоялась в прошлом году). EARL представляет собой форум, участники которого обмениваются опытом внедрения аналитических решений на основе R в бизнес-процессы.

Конференция началась с нескольких проводившихся параллельно практических семинаров: 1) "Integrating R and Python - an introduction to using both in a data analysis pipeline" ("Интегрирование R и Python - введение в использование обоих языков в анализе данных"); 2) "Current best practices in formal package development" ("Современный передовые методы формальной разработки пакетов"); "Introduction to Rcpp" ("Введение в Rcpp") и "Interactive reporting with R" ("Создание интерактивных отчетов при помощи R").



Одним из приглашенных докладчиков был Джо Ченг (Joe Cheng) из RStudio - главный разработчик фреймворка Shiny. Помимо приведения примеров использования Shiny для создания аналитических веб-приложений, Джо рассказал также о некоторых планах по расширению возможностей Shiny. В частности, он и его коллеги сейчас работают над тем, что они называют "Shiny Gadgets". По сути, это будет набор функций, предназначенных для облегчения работы аналитика при выполнении разведочного анализа данных. Например, работая в RStudio, можно будет построить интерактивную диаграмму рассеяния, выделить на ней интересующую нас область, приблизить ее для детального рассмотрения и затем нажатием одной кнопки создать отдельную таблицу, содержащую данные из этой области.

Другой яркий пленарный доклад ("A tale of mathematical prediction") был сделан Ханной Фрай (Hannah Fry) - прикладным математиком из Университетского колледжа Лондона, которая привела многочисленные практические примеры использования математических моделей для прогнозирования самых разных явлений - от вероятности нахождения "идеального" партнера на сайте знакомств до предсказания террористических атак. Ханна известна своей активной деятельностью по популяризации математики - рекомендую посетить ее сайт.

Секционные доклады были разбиты на такие основные темы, как "моделирование", "визуализация данных", "бизнес-приложения" и "большие данные". Тема больших данных так или иначе проскальзывала в большинстве докладов и стала, пожалуй, одной из основных в этом году. Более того, во многих презентациях речь шла о Spark'e - эта платформа для работы с большими данными быстро набирает обороты в бизнес-среде и ей однозначно следует уделить внимание всем, кто интересуется современными технологиями анализа данных. Из особенно запомнившихся стоит упомянуть следующие доклады:
  • Ричард Паф (Richard Pugh) из Mango Solutions в докладе "Defining and Creating a Data Scientist" рассказал о своем представлении о том, что такое "Data Science" и кто такой "Data Scientist". Основная идея, которую он пытался донести, состоит в том, что "единороги не существуют", понимая под "единорогами" тех самых умеющих делать всё подряд Data Scientists, которых часто ищут слабо разбирающиеся в предмете работодатели. По мнению Ричарда, есть разные типы Data Scientists: 1) "Communicator" (тот, у кого хорошо получается общаться с клиентами и руководить командой); 2) "Data Wrangler" (специалист по базам данных - тот, кто может извлечь данные из разных источников и преобразовать их в нужный для анализа формат); 3) "Programmer" (разработчик программного обеспечения, который способен создать конечный продукт на основе того или иного алгоритма); 4) "Technologist" (человек, хорошо разбирающийся в технологиях анализа данных и способный организовать соответствующую инфраструктуру для Data Science-команды); 5) "Modeller" (специалист в области статистики/машинного обучения, разрабатывающий прототипы аналитических решений); 6) "Visualizer" (специалист по визуализации данных). Конечно, часто тот или иной специалист может в определенной степени сочетать перечисленные навыки. Однако наиболее эффективной формой организации всегда будет команда из нескольких человек, являющихся экспертами в отдельных областях. Ричард объявил также о том, что вскоре Mango Solutions запустят новый веб-портал (DataScienceRadar.com), который, подобно r-bloggers.com, будет агрегировать новости по Data Science и другую соответствующую информацию.
  • Бен Доуни (Ben Downe) из British Car Auctions рассказал о своем опыте внедрения R в аналитическую инфраструктуру компании. Особенно полезными были его советы по поводу того, как следует "продавать" R принимающим решения менеджерам высшего звена. Четыре потенциально полезных аргумента: "R - это бесплатно", "используя R, можно извлечь тонны полезной информации", "R используют многие другие компании", "R изучают в университетах (следовательно, можно нанять выпускников, которые знакомы с этим языком)".
  • Джеф Стагг (Jeff Stagg) из Jacobs Douwe Egberts привел интересный пример того, как в его компании R применяется для нахождения сочетаний сортов кофе, оптимальных с точки зрения стоимости производства, логистики и, естественно, вкусовых качеств конечного продукта. Эта задача по оптимизации решается на основе метода Монте-Карло.
  • Тим Полден (Tim Paulden) из ATASS Sports рассказал о разрабатываемой в его компании модели, позволяющей выявлять теннисные матчи, в которых имеет место сговор между игроками.
  • Деклан Гровс (Declan Groves) из страховой компании Allstate поделился своим опытом разработки предсказательных моделей с использованием различных методов машинного обучения. Согласно Деклану, чаще всего оптимальные результаты получаются при помощи градиентных бустинговых машин и алгоритма "случайный лес". Кроме того, в случаях, когда от модели требуется возможность интерпретировать ее параметры, в Allstate часто используют регуляризованные версии логистической регрессии (в частности, glmnet). По данной теме см. также эту статью.
Как это обычно бывает на такого рода конференциях, на EARL-2015 можно было увидеть много выставочных стендов компаний-поставщиков аналитического программного обеспечения и оборудования. В частности, в конференции приняли участие такие компании, как Microsoft, TIBCO, Teradata и др. В одном из перерывов мне довелось поговорить с Дэвидом Смитом (David Smith) - автором блога компании Revolution Analytics, которая недавно была приобретена Microsoft. Дэвид сообщил, что в настоящее время команда Revolution Analytics активно занимается разработкой аналитических продуктов на базе R, которые станут частью Azure Machine Learning.

5 Комментарии

Unknown написал(а)…
Отличная статья. Спасибо.

Насколько я могу судить по состоянию публикаций в русскоязычной среде агрегатор новостей из мира Анализа Данных, на сегодняшний день не состоятелен. Или я ошибаюсь?
Sergey Mastitsky написал(а)…
По-моему, вполне состоятелен. Более того, проект такого толка уже существует: http://datareview.info/
edvardoss написал(а)…
Добрый день, прошу прощения за оффтоп но нужен совет знающих людей.
странность с визуализацией модели rpart в rsudio- в дереве правила отражаются с какой то невменяемой подписью из символов.
Думал что делаю что-то неправильно,но когда взял пример из справочной системы пакета для втроенного датасета cu.summary, то увидел тот же невменяемый результат с кривыми подписями.
(Если данные дискретные-непрерывные, то визуализация правил нормальная, как только категориальные данные-правила не читаются, набор символов типа ">aabc")
вот пример из справки который так же непонятно визуализируется
fit <- rpart(Price ~ Mileage + Type + Country, cu.summary)
par(xpd = TRUE)
plot(fit, compress = TRUE)
text(fit, use.n = TRUE)
Анонимный написал(а)…
> ... отражаются с какой то невменяемой подписью из символов. ...
?labels.rpart
edvardoss написал(а)…
вот эти странные правила для примера выше.
> labels(fit, use.n = TRUE)
[1] "root" "Type=adef" "Country=acefghj" "Type=d" "Type=aef" "Country=fhj" "Country=ce"
[8] "Country=di" "Type=bc" "Country=cgj" "Type=c" "Type=b" "Country=bdei"
Новые Старые