10 июня 2018

Обзор интересных R-пакетов за май 2018 г.



  • AROC - вычисление площади под ROC-кривой с поправкой на влияние предикторов.
  • biclust - несколько методов для бикластеризации.
  • bigQueryR - R-интерфейс для работы с BigQuery. См. примеры здесь.
  • cloudml - R-интерфейс для работы с Google Cloud Machine Learning Engine.
  • DHARMa - набор утилит для диагностики качества моделей со смешанными эффектами.
  • dtwclust - несколько методов для кластеризации временных рядов.
  • fst - быстрая сериализация таблиц данных R (data frames).
  • netdiffuseR - моделирование процесса распространения болезней в системах, представленных в виде графов.
  • stringdist - несколько методов для вычисления сходства между значениями строковых переменных (van der Loor 2014).
  • textclean - набор утилит для очистки текстовых данных.



06 мая 2018

Обзор интересных R-пакетов за апрель 2018 г.






28 апреля 2018

Интервальное оценивание параметров распределения



Автор: Владимир Шитиков

Два подхода к оценке доверительных интервалов 

Одна из главных задач статистической обработки заключается в оценке по выборочным данным таких параметров наблюдаемой случайной величины, как центр положения \(m\), интенсивность разброса \(s\) или форма кривой плотности распределения эмпирических частот. Для этого часто используется параметрический подход, который предполагает приближенную аппроксимацию эмпирического распределения наиболее подходящим теоретическим распределением (нормальным, логнормальным, биномиальным, гипергеометрическим или иным).



01 апреля 2018

Эмпирические функции распределения и их сравнение



Автор: Владимир Шитиков

Введение

Пусть изучаемая случайная величина \(\boldsymbol{X}\) распределена по неизвестному закону. Тогда по репрезентативной выборке \(X\) объемом \(n\) можно построить две эмпирические функции распределения:  функцию плотности вероятности PDF (Probability Density Function) и кумулятивную функцию распределения CDF (Cumulative Distribution Function). Если методы построения PDF широко распространены и легко реализуются в R в форме ядерной функции сглаживания density(), то построение и анализ кумулятивных кривых распределения имеет ряд характерных особенностей, обсуждаемых ниже.



03 марта 2018

Работа с пакетом MuMIn. Часть 2: Объединение моделей для получения коллективного решения



Автор: Владимир Шитиков

Методы обобщения моделей и прогнозов

По аналогии с коллективными методами принятия решений, столь эффективно используемыми в человеческом обществе, принято считать, что суммарная эффективность любой мультимодельной системы распознавания или прогнозирования теоретически будет в среднем выше отдельных ее членов. Поэтому в последние несколько десятилетий активно разрабатывались возможные подходы к тому, как построить на одних и тех же исходных данных некоторый "коллектив" (ensemble) частных одно- или разнотипных моделей и выполнить их обобщение (averaging) с целью получить более обоснованное комбинированное решение (forecast combinations, или multimodel inference).