01 апреля 2018

Эмпирические функции распределения и их сравнение



Автор: Владимир Шитиков

Введение

Пусть изучаемая случайная величина \(\boldsymbol{X}\) распределена по неизвестному закону. Тогда по репрезентативной выборке \(X\) объемом \(n\) можно построить две эмпирические функции распределения:  функцию плотности вероятности PDF (Probability Density Function) и кумулятивную функцию распределения CDF (Cumulative Distribution Function). Если методы построения PDF широко распространены и легко реализуются в R в форме ядерной функции сглаживания density(), то построение и анализ кумулятивных кривых распределения имеет ряд характерных особенностей, обсуждаемых ниже.



03 марта 2018

Работа с пакетом MuMIn. Часть 2: Объединение моделей для получения коллективного решения



Автор: Владимир Шитиков

Методы обобщения моделей и прогнозов

По аналогии с коллективными методами принятия решений, столь эффективно используемыми в человеческом обществе, принято считать, что суммарная эффективность любой мультимодельной системы распознавания или прогнозирования теоретически будет в среднем выше отдельных ее членов. Поэтому в последние несколько десятилетий активно разрабатывались возможные подходы к тому, как построить на одних и тех же исходных данных некоторый "коллектив" (ensemble) частных одно- или разнотипных моделей и выполнить их обобщение (averaging) с целью получить более обоснованное комбинированное решение (forecast combinations, или multimodel inference).




14 января 2018

Работа с пакетом MuMIn. Часть 1: Селекция моделей



Автор: Владимир Шитиков

Введение

Современные исследования приобретают все более и более обобщающий и стратегический характер, а глубокая стратегия никогда не ограничивается рассмотрением какой-то одной идеи, гипотезы или модели. Принцип "множественности моделей", сформулированный еще в 1890 г. Т. Чемберленом, предполагает формирование набора альтернативных научных гипотез \(H_1, H_2, \dots, H_r\), для каждой из которых подбирается адекватная математическая модель. В итоге вместо того, чтобы находить по Фишеру соотношение вероятностей основной и нулевой гипотез \(H_0 | H_1\), оценивается относительная сила обоснованности (strength of evidence) каждой из рассматриваемых гипотетических моделей \(g_1, g_2, \dots, g_r\). Эта новая парадигма оформилась в современную методологию "Model selection and Multimodel inference" (Burnham, Anderson, 2002), которая базируется на основных принципах теории информации Кульбака-Лейблера (Kullback-Leibler, 1951) и включает ранжирование моделей с последующим формированием статистического вывода на основе этих нескольких моделей. 

Пакет MuMIn (от "Multi-Model Inference"), разработанный К. Бартоном, содержит набор функций, которые, используя информационные критерии, реализуют ранжирование и отбор статистических моделей различного типа и их последующее обобщение (model averaging) с целью получения коллективного решения. Ансамбль \(G_r\) моделей, включаемых в анализ, может формироваться либо автоматически (например, как все возможные комбинации подмножеств предикторов заданной "глобальной" модели), либо задается исследователем в виде набора конкретных моделей (т.е. математически выраженных гипотез, нуждающихся в проверке). Для всех анализируемых моделей выполняется подгонка их коэффициентов по эмпирическим наборам данных и рассчитываются основные статистики и информационные критерии \(IC\) качества аппроксимации. Полный список из \(r\) моделей сортируют по уменьшению адекватности на основе заданного \(IC\) и устанавливают порог, согласно которому некоторое количество "оптимальных" моделей далее будет использовано для формирования окончательного коллективного решения. Такие коллективные решения могут быть получены с использованием как традиционных взвешенных средних, так и других специальных алгоритмов (метод Бейтса-Гренджера, бутстреп, метод "складного ножа", адаптивная регрессия и др.). 

В этой статье мы рассмотрим первую часть описанной процедуры, т.е. построение ранжированного списка моделей на основе информационных критериев с использованием пакета MuMIn.





25 декабря 2017

Обзор интересных R-пакетов за ноябрь-декабрь 2017 г.




С наступающим Новым Годом!
Добра и мира вам и вашим близким!



05 ноября 2017

Обзор интересных R-пакетов за октябрь 2017 г.



  • fastrtext - R-интерфейс к библиотеке fastText, разработанной исследователями из Facebook. Эта библиотека предназначена для работы с текстовыми данными и построения моделей путем обучения с учителем и без учителя.
  • googleLanguageR - пакет для работы с несколькими API от Google для обработки естественных языков (в частности, Natural Language APICloud Speech API и Cloud Translation API).
  • JuliaCall - R-интерфейс к языку Julia.
  • OutliersO3 - набор методов для обнаружения выбросов в наборах данных с большим количеством переменных.
  • powerlmm - анализ мощности для панельных данных с двумя или тремя уровнями случайных эффектов.
  • re2r - пакет для работы с регулярными выражениями, в основе которого лежит алгоритм RE2 от Google. См. примеры здесь.
  • slowraker - реализация алгоритма RAKE, предназначенного для автоматического извлечения ключевых слов из отдельных текстовых документов. См. примеры здесь.
  • tscount - построение моделей для временных рядов, представленных счетными переменными.
  • udpipe - пакет для выполнения распространенных задач, возникающих при обработке естественных языков (выделение токенов, лемматизация, определение части речи и др.).
  • Здесь можно ознакомиться со списком из 44 пакетов для R, обеспечивающих доступ к источникам данных разной тематики.