04 ноября 2018

Обзор интересных R-пакетов за октябрь 2018 г.



  • automl - автоматизированное нахождение оптимальных гиперпараметров для различных алгоритмов машинного обучения - от линейной регрессии до нейронных сетей (см. примеры здесь).
  • carbonate - R-интерфейс к библиотеке carbon.js, с помощью которой можно создавать визуализации небольших фрагментов кода, вроде этой:


    • crfsuite - новый пакет для обработки естественного языка.
    • data.table - теперь функция fread() этого популярного пакета способна читать сжатые данные в форматах gz и bz2.
    • gratia - пакет для ggplot2-стилизованной визуализации результатов построения GAM моделей с помощью функций gam()bam() или gamm() из базового пакета mgcv.
    • modelplotr - визуализация качества предсказательных моделей с помощью метрик, важных для принятия бизнес-решений.
    • plumber - этот популярный пакет для создания веб-сервисов с использованием функционала R будет интегрирован в новую версию RStudio.
    • RcppAnnoy - легковесная библиотека для выполнения приблизительного поиска ближайших соседей.
    • RcppRedis - R-интерфейс для работы с Redis.
    • tweenr - набор утилит для интерполяции данных и создания анимированных графиков.
    P.S.: Мой коллега и соавтор Владимир Кириллович Шитиков запустил свой блог "Экология с R" - рекомендую посетить!


    07 июля 2018

    Обзор интересных R-пакетов за июнь 2018 г.






    10 июня 2018

    Обзор интересных R-пакетов за май 2018 г.



    • AROC - вычисление площади под ROC-кривой с поправкой на влияние предикторов.
    • biclust - несколько методов для бикластеризации.
    • bigQueryR - R-интерфейс для работы с BigQuery. См. примеры здесь.
    • cloudml - R-интерфейс для работы с Google Cloud Machine Learning Engine.
    • DHARMa - набор утилит для диагностики качества моделей со смешанными эффектами.
    • dtwclust - несколько методов для кластеризации временных рядов.
    • fst - быстрая сериализация таблиц данных R (data frames).
    • netdiffuseR - моделирование процесса распространения болезней в системах, представленных в виде графов.
    • stringdist - несколько методов для вычисления сходства между значениями строковых переменных (van der Loor 2014).
    • textclean - набор утилит для очистки текстовых данных.



    06 мая 2018

    Обзор интересных R-пакетов за апрель 2018 г.






    28 апреля 2018

    Интервальное оценивание параметров распределения



    Автор: Владимир Шитиков

    Два подхода к оценке доверительных интервалов 

    Одна из главных задач статистической обработки заключается в оценке по выборочным данным таких параметров наблюдаемой случайной величины, как центр положения \(m\), интенсивность разброса \(s\) или форма кривой плотности распределения эмпирических частот. Для этого часто используется параметрический подход, который предполагает приближенную аппроксимацию эмпирического распределения наиболее подходящим теоретическим распределением (нормальным, логнормальным, биномиальным, гипергеометрическим или иным).



    01 апреля 2018

    Эмпирические функции распределения и их сравнение



    Автор: Владимир Шитиков

    Введение

    Пусть изучаемая случайная величина \(\boldsymbol{X}\) распределена по неизвестному закону. Тогда по репрезентативной выборке \(X\) объемом \(n\) можно построить две эмпирические функции распределения:  функцию плотности вероятности PDF (Probability Density Function) и кумулятивную функцию распределения CDF (Cumulative Distribution Function). Если методы построения PDF широко распространены и легко реализуются в R в форме ядерной функции сглаживания density(), то построение и анализ кумулятивных кривых распределения имеет ряд характерных особенностей, обсуждаемых ниже.



    03 марта 2018

    Работа с пакетом MuMIn. Часть 2: Объединение моделей для получения коллективного решения



    Автор: Владимир Шитиков

    Методы обобщения моделей и прогнозов

    По аналогии с коллективными методами принятия решений, столь эффективно используемыми в человеческом обществе, принято считать, что суммарная эффективность любой мультимодельной системы распознавания или прогнозирования теоретически будет в среднем выше отдельных ее членов. Поэтому в последние несколько десятилетий активно разрабатывались возможные подходы к тому, как построить на одних и тех же исходных данных некоторый "коллектив" (ensemble) частных одно- или разнотипных моделей и выполнить их обобщение (averaging) с целью получить более обоснованное комбинированное решение (forecast combinations, или multimodel inference).




    14 января 2018

    Работа с пакетом MuMIn. Часть 1: Селекция моделей



    Автор: Владимир Шитиков

    Введение

    Современные исследования приобретают все более и более обобщающий и стратегический характер, а глубокая стратегия никогда не ограничивается рассмотрением какой-то одной идеи, гипотезы или модели. Принцип "множественности моделей", сформулированный еще в 1890 г. Т. Чемберленом, предполагает формирование набора альтернативных научных гипотез \(H_1, H_2, \dots, H_r\), для каждой из которых подбирается адекватная математическая модель. В итоге вместо того, чтобы находить по Фишеру соотношение вероятностей основной и нулевой гипотез \(H_0 | H_1\), оценивается относительная сила обоснованности (strength of evidence) каждой из рассматриваемых гипотетических моделей \(g_1, g_2, \dots, g_r\). Эта новая парадигма оформилась в современную методологию "Model selection and Multimodel inference" (Burnham, Anderson, 2002), которая базируется на основных принципах теории информации Кульбака-Лейблера (Kullback-Leibler, 1951) и включает ранжирование моделей с последующим формированием статистического вывода на основе этих нескольких моделей. 

    Пакет MuMIn (от "Multi-Model Inference"), разработанный К. Бартоном, содержит набор функций, которые, используя информационные критерии, реализуют ранжирование и отбор статистических моделей различного типа и их последующее обобщение (model averaging) с целью получения коллективного решения. Ансамбль \(G_r\) моделей, включаемых в анализ, может формироваться либо автоматически (например, как все возможные комбинации подмножеств предикторов заданной "глобальной" модели), либо задается исследователем в виде набора конкретных моделей (т.е. математически выраженных гипотез, нуждающихся в проверке). Для всех анализируемых моделей выполняется подгонка их коэффициентов по эмпирическим наборам данных и рассчитываются основные статистики и информационные критерии \(IC\) качества аппроксимации. Полный список из \(r\) моделей сортируют по уменьшению адекватности на основе заданного \(IC\) и устанавливают порог, согласно которому некоторое количество "оптимальных" моделей далее будет использовано для формирования окончательного коллективного решения. Такие коллективные решения могут быть получены с использованием как традиционных взвешенных средних, так и других специальных алгоритмов (метод Бейтса-Гренджера, бутстреп, метод "складного ножа", адаптивная регрессия и др.). 

    В этой статье мы рассмотрим первую часть описанной процедуры, т.е. построение ранжированного списка моделей на основе информационных критериев с использованием пакета MuMIn.