02 августа 2015

Какую модель выбрать, учитывая, что бесплатный сыр бывает только в мышеловке?



Рисунок заимствован с сайта coursera.org
Одна из ключевых проблем, с которой исследователь сталкивается при разработке предсказательной модели, заключается в выборе оптимального для конкретного случая статистического метода. За последние несколько десятилетий было разработано огромное множество методов для решения задач классификации и регрессии (см., например, список моделей, реализованных в пакете caret), что, безусловно, существенно затрудняет этот выбор. Часто выбор того или иного метода обусловлен предыдущим опытом и уровнем осведомленности исследователя. Так, в определенных областях может существовать своего рода "традиция" по использованию тех или иных методов для решения конкретного круга задач. В силу естественной ограниченности своей специализации исследовать может также просто не знать о существовании методов, которые являются более подходящими для его ситуации. Можно столкнуться и с такими случаями, когда некий разработчик аналитического программного обеспечения утверждает, что его новый алгоритм "не имеет аналогов", превосходя все другие доступные решения. В этой связи хорошо было бы иметь хотя бы общее представление о том, на какие методы следует обратить особое внимание, т.е. какие из них с высокой вероятностью хорошо сработают в большинстве ситуаций. Наличие подобной информации будет особенно полезным при работе над новыми проектами/данными, когда предыдущий опыт, который мог бы подсказать, с чего стоит начинать, отсутствует.


19 июля 2015

Подготовка данных для создания предсказательных моделей: трансформация предикторов



Это сообщение продолжает начатую ранее тему подготовки данных для создания предсказательных моделей и посвящено трансформации предикторов. Необходимость преобразование исходных значений предикторов может быть вызвана разными причинами. Например, некоторые статистические методы требуют, чтобы все предикторы измерялись в одинаковых единицах. В других случаях качество модели может в значительной мере зависеть от наличия выбросов. Ниже будут описаны некоторые наиболее распространенные способы трансформации количественных предикторов, с примерами их реализации средствами пакета caret.


12 июля 2015

Интересное из мира R (29 июня - 12 июля 2015 г.)



Из всего произошедшего в мире R за последние две недели хотелось бы отдельно остановиться на одной, но очень большой новости - 30 июня The Linux Foundation объявили о создании R Consortium (Консорциум R). Это объявление было также продублировано на сайтах нескольких компаний, которые вошли в Консорциум (в частности, MicrosoftRStudio, Revolution Analytics, Mango Solutions, Oracle и др.). Помимо перечисленных компаний, членами организации стали также TIBCO Software Inc., Alteryx, Google, HP и Ketchum Trading.

Новый Консорциум является некоммерческой организацией, которая ставит своей целью поддержку деятельности R Foundation и обеспечение финансирования для развития и продвижения R. Конкретные проекты, которые предполагается реализовать в ближайшем будущем включают улучшение инфраструктуры R Forge, финансирование ежегодной конференции "userR!" (последняя конференция, кстати, прошла на прошлой неделе и собрала более 660 участников со всего мира) и общую поддержку совместной работы пользователей и разработчиков R (в частности, создание инфраструктуры, позволяющей централизованно выполнять тестирование кода R и тем самым способствовать повышению качества программного обеспечения, написанного на этом языке).

Как и следовало ожидать, новость о создании Консорциума была освящена на нескольких крупных tech-порталах, таких как Venturebeat, Datanami, Computerworld, CIO, Infoworld, CloudTimes. Среди пользователей R можно было встретить как положительные, так и весьма скептичные мнения по поводу создания Консорциума (в частности, имеют место опасения в связи с растущей коммерциализацией R).


05 июля 2015

Подготовка данных для создания предсказательных моделей: обнаружение и удаление "ненужных" предикторов



Стадия подготовки исходных данных играет очень важную роль в процессе создании эффективных предсказательных моделей. Следующие сообщения будут посвящены основным процедурам, используемым на этой стадии. Начнем с обнаружения и удаления "ненужных" предикторов (признаков).


28 июня 2015

Интересное из мира R (15 - 28 июня 2015 г.)



"Ньюсмейкером" в последние дни была компания RStudio, которая сообщила о:
  • нескольких новых пакетах: leaflet для создания интерактивных географических карт на основе известной JavaScript-библиотеки Leaflet; DT для создания интерактивных HTML-таблиц на основе библиотеки DataTables, а также d3heatmap для построения интерактивных тепловых карт в духе D3.js.
  • нескольких приятных изменениях в сервисе shinyapps.io - возможности использования пользовательских доменных имен в адресах Shiny-приложений, расширении допустимого размера приложений до 1 Gb, возможности присвоения нового имени аккаунту и др.
Из других событий: