04 ноября 2018

Обзор интересных R-пакетов за октябрь 2018 г.



  • automl - автоматизированное нахождение оптимальных гиперпараметров для различных алгоритмов машинного обучения - от линейной регрессии до нейронных сетей (см. примеры здесь).
  • carbonate - R-интерфейс к библиотеке carbon.js, с помощью которой можно создавать визуализации небольших фрагментов кода, вроде этой:


    • crfsuite - новый пакет для обработки естественного языка.
    • data.table - теперь функция fread() этого популярного пакета способна читать сжатые данные в форматах gz и bz2.
    • gratia - пакет для ggplot2-стилизованной визуализации результатов построения GAM моделей с помощью функций gam()bam() или gamm() из базового пакета mgcv.
    • modelplotr - визуализация качества предсказательных моделей с помощью метрик, важных для принятия бизнес-решений.
    • plumber - этот популярный пакет для создания веб-сервисов с использованием функционала R будет интегрирован в новую версию RStudio.
    • RcppAnnoy - легковесная библиотека для выполнения приблизительного поиска ближайших соседей.
    • RcppRedis - R-интерфейс для работы с Redis.
    • tweenr - набор утилит для интерполяции данных и создания анимированных графиков.
    P.S.: Мой коллега и соавтор Владимир Кириллович Шитиков запустил свой блог "Экология с R" - рекомендую посетить!


    07 июля 2018

    Обзор интересных R-пакетов за июнь 2018 г.






    10 июня 2018

    Обзор интересных R-пакетов за май 2018 г.



    • AROC - вычисление площади под ROC-кривой с поправкой на влияние предикторов.
    • biclust - несколько методов для бикластеризации.
    • bigQueryR - R-интерфейс для работы с BigQuery. См. примеры здесь.
    • cloudml - R-интерфейс для работы с Google Cloud Machine Learning Engine.
    • DHARMa - набор утилит для диагностики качества моделей со смешанными эффектами.
    • dtwclust - несколько методов для кластеризации временных рядов.
    • fst - быстрая сериализация таблиц данных R (data frames).
    • netdiffuseR - моделирование процесса распространения болезней в системах, представленных в виде графов.
    • stringdist - несколько методов для вычисления сходства между значениями строковых переменных (van der Loor 2014).
    • textclean - набор утилит для очистки текстовых данных.



    06 мая 2018

    Обзор интересных R-пакетов за апрель 2018 г.






    28 апреля 2018

    Интервальное оценивание параметров распределения



    Автор: Владимир Шитиков

    Два подхода к оценке доверительных интервалов 

    Одна из главных задач статистической обработки заключается в оценке по выборочным данным таких параметров наблюдаемой случайной величины, как центр положения \(m\), интенсивность разброса \(s\) или форма кривой плотности распределения эмпирических частот. Для этого часто используется параметрический подход, который предполагает приближенную аппроксимацию эмпирического распределения наиболее подходящим теоретическим распределением (нормальным, логнормальным, биномиальным, гипергеометрическим или иным).