23 мая 2015

Протокол разработки предсказательных моделей, предназначенных для решения бизнес-задач



В отличие от моделей, основное назначение которых заключается в установлении взаимоотношений между предикторами и некоторой переменной-откликом и, как следствие, наиболее распространенных в академической среде, предсказательные модели особенно популярны в мире бизнеса. Это не удивительно, поскольку возможность делать предсказания в отношении критических для бизнеса явлений и процессов дает конкурентное преимущество, а нередко лежит и в основе самого бизнеса (Google, Amazon, Netflix, и т.д.). Разработка предсказательной модели для решения бизнес-задач - очень сложная задача, поскольку требует экспертизы во многих областях - от глубокого понимания конкретного бизнес-домена, до баз данных, IT-инфраструктуры и, конечно же, методов статистики/машинного обучения. Есть очень мало людей, которые имеют все эти навыки, в связи с чем планирование и выполнение проекта по разработке и запуску предсказательной модели - это всегда командная работа. Любой успешный бизнес строится на хорошо структурированных и "обкатанных" на практике процессах и правилах. Существуют подобные правила и для проектов, связанных с разработкой предсказательных моделей. Это сообщение посвящено одному из наиболее широко применяемых таких протоколов - т.н. "межиндустриальному стандартному протоколу глубинного анализа данных" ("Cross-Industry Standard Protocol for Data Mining", CRISP-DM).



17 мая 2015

Интересное из мира R (4-17 мая 2015 г.)



  • Похоже, скоро мы увидим первый, и очень серьезный, результат слияния компании Revolution Analytics с Microsoft. Как стало известно из официального блога Microsoft, этим летом для публичного ознакомления будет выпущена предварительная версия SQL Server 2016. Одной из отличительных особенностей новой версии этого лидирующего продукта Microsoft станет полная его интеграция с R, а именно Revolution R Open. Аналитические задачи можно будет решать при помощи R прямо на стороне сервера, без предварительного извлечения данных через интерфейс ODBC и их переноса в среду R, что сэкономит время и место для хранения данных.
  • Число пакетов R постоянно растет и все сложнее становится найти пакеты, необходимые для решения конкретных задач. В связи с этим все чаще можно встретить списки рекомендуемых пакетов. Один из таких списков общего назначения был опубликован на портале Computerworld.
  • Вышла новая версия популярного пакета forecast (v6.0), особенностью которого является возможность автоматического выбора наиболее оптимальной модели для прогнозирования на основе временных рядов. Подробнее со списком изменений, реализованных в новой версии, можно ознакомиться в сообщении, опубликованном  автором пакета - проф. Робом Хиндманом.
  • В июне на базе платформы Stepic начнется трехнедельный курс по R на русском языке от Института биоинформатики (Санкт-Петербург).
  • Андрей Огурцов в своем блоге затронул тему нехватки литературы по применению R в области клинических исследований и привел список имеющихся на данных момент работ.

16 мая 2015

Создание предсказательных моделей: основные шаги



Как отмечалось в одном из предыдущих сообщений, статистические модели создаются либо с целью получения предсказаний, либо для понимания взаимоотношений между переменной-откликом и предикторами. Создание предсказательных моделей (англ. "predictive models", в некоторых областях также "forecasting models") включает ряд стандартных шагов, обзор которых приведен ниже. Этим сообщением я начинаю новую серию публикаций по методам машинного обучения ("machine learning"), или "статистического обучения" ("statistical learning"; James et al. 2013), и построению предсказательных моделей с их помощью.

03 мая 2015

Интересное из мира R (27 апреля - 3 мая 2015 г.)



  • В своем блоге "Язык R в финансах и экономике" Илья Езепов опубликовал перевод известной страницы Google's R Style, в которой приводятся советы по оформлению скриптов, написанных на R. Очень рекомендую!
  • Андрей Огурцов в своем блоге "Биостатистика и язык R"  привел подробный пример расчета оптимального объема выборок для проведения исследований по установлению терапевтической эквивалентности разных способов лечения.
  • На сайте soc-research.info Сергей Дембицкий привел пример функции, позволяющей выполнять взвешивание данных при работе с таблицами сопряженности.
  • На образовательном сайте Exponenta.ru появилось учебное пособие "Язык R". Автор этой работы - Наиль Мусин, доцент факультета информационных технологий Ун-та Российской академии образования.
  • Новое издание книги "Статистический анализ и визуализация данных с помощью R", в которой обобщаются материалы данного блога, будет опубликовано в "бумажном варианте" издательством ДМК Пресс (Москва). Рукопись уже передана в издательство. Следите за новостями.

26 апреля 2015

Интересное из мира R (20-26 апреля 2015 г.)



На этой неделе многие интересные публикации были связаны с фреймворком Shiny:
  • Дин Аттали (Dean Attali) объявил о выходе своего пакета shinyjs, который позволяет реализовывать распространенные JavaScript-операции в Shiny-приложениях.  Дин приводит подробный пример использования этого нового пакета.
  • У себя в блоге Дин Аттали также опубликовал статью, в которой он рассматривает Shiny как один из возможных инструментов для документации возможностей R-пакетов.
  • В блоге набирающего популярность сервиса Plotly приведен пример создания интерактивных дэшбордов путем объединения возможностей Plotly и Shiny.
На другие темы:
  • Дирк Эддельбюттель (Dirk Eddelbuettel) у себя в блоге объявил о создании ghrr - GitHub Hosted R Repository. Как следует из названия этого проекта, речь идет о новом механизме распространения R-пакетов, разработка которых ведется на базе платформы GitHub.
  • Судя по всему, слияние Revolution Analytics с Microsoft завершено, и теперь началось формирование новой команды, которая будет заниматься продвижением R в бизнес-среде. В связи с этим в Microsoft объявлены несколько вакансий для R-программистов.