06 апреля 2014

Каков возраст Вселенной?



Как было показано в предыдущем сообщении, статистическая модель представляет собой упрощенное математическое представление процесса, который, как мы полагаем, привел к генерации наблюдаемых значений изучаемой переменной. Статистические модели используются для решения двух типов задач: 1) выявление характера взаимоотношений между переменной-откликом и некоторыми внешними факторами (предикторами) и 2) предсказание значений переменной-отклика на основе известных значений предикторов. В данном сообщении будет представлен пример использования простой линейной регрессии для решения задачи первого типа. Этой задачей будет установление... возраста Вселенной. Но сначала, как обычно, немного теории...

04 марта 2014

Статистические модели



Термин "модель" используется во многих сферах человеческой деятельности и имеет множество смысловых значений. Тем не менее, в общем виде модель можно определить как систему, являющуюся упрощенным представлением некоторой реальной системы. Более простое устройство модели выражается в том, что при ее создании принимают во внимание только определенные свойства реальной системы, полагаемые существенными для изучаемого процесса или явления (представьте себе, например, масштабную модель дома, созданную архитектором). Изменяя эти свойства у модели, мы можем лучше понять устройство реальной системы и, что особенно важно, с определенной вероятностью предсказать ее поведение в разных ситуациях.

Построение моделей является одной из центральных тем статистики как науки. Существует большое число видов статистических моделей, различающихся как по лежащим в их основе математическим принципам, так и по преимущественным областям применения. Однако несмотря на все свое разнообразие, статистические модели сходны в том, что они описывают взаимосвязь между случайными переменными. Как именно это происходит? Постараемся разобраться...

01 февраля 2014

Расчет расстояния между географическими объектами по их координатам



В R имеется широкий арсенал инструментов для работы с пространственными данными. Со списком основных из них можно ознакомиться в соответствующем разделе на сайте CRAN. Это сообщение будет посвящено простой, но в то же время часто возникающей задаче - расчету расстояния между географическими объектами по их координатам.

26 января 2014

Книга "An Introduction to Statistical Learning with Applications in R" в открытом доступе



В августе прошлого года издательством Springer была опубликована книга ''An Introduction to Statistical Learning with Applications in R", аторами которой являются Гарет Джеймс (Gareth James, Университет Южной Калифорнии), Даниела Уиттон (Daniela Witton, Университет Вашингтона), Тревор Хасти (Trevor Hastie, Стэнфордский Университет) и Роберт Тибширани (Стэнфордский Университет). Два последних автора ранее опубликовали очень популярную книгу по методам машинного обучения "The Elements of Statistical Learning", которая, однако, требует от читателя серьезной математической подготовки. В новой книге ''An Introduction to Statistical Learning" описано большинство тех же методов, но на гораздо более доступном для понимания уровне. Кроме того, книга изобилует примерами реализации конкретных методов на языке R. С согласия издательства, новая книга доступна для свободного скачивания (PDF). Весьма рекомендую всем интересующимся современными методами статистики и машинного обучения!

Бонусная информация: на этой неделе Тревор Хасти и Роберт Тибширани начали преподавать бесплатный онлайн-курс по материалам книги. Еще не поздно стать слушателем этого курса, зарегистрировавшись на сайте Стэнфордского университета.



19 января 2014

Знакомьтесь - dplyr



В блоге проекта RStudio, проф. Хэдли Укхэм сообщил о выходе нового пакета для R - dplyr. Те, кто знаком с работой Хэдли, увидят сходство в названии этого нового пакета с plyr - одного из наиболее популярных в настоящее время R-расширений для эффективной манипуляции объектов с данными (разбиение объекта на части, выполнение определенных вычислений над этими частями, и объединение результатов в виде нового объекта). В отличие от plyr, dplyr предназначен для работы только с таблицами данных (англ. data frames), включая таблицы из баз данных MySQL, PostgreSQL, SQLite, и Google BigQuery. Кроме того, отличительными особенностями dplyr являются простота синтаксиса команд и, что особенно важно сегодня при обработке больших объемов данных, быстродействие. Примеры соответствующих команд, а также сравнивнение быстродействия plyr и ddplyr можно найти в упомянутом выше сообщении блога RStudio. Обратите внимание: dplyr доступен только для актуальной версии R (v 3.0.2), так что перед его установкой, возможно, Вам сначала придется обновить R.


08 января 2014

Методы множественных проверок гипотез, реализованные в пакете multcomp



Последние несколько сообщений были посвящены проблеме множественных проверок статистических гипотез. Для решения этой проблемы разработано большое число методов, различающихся по мощности и применимости в разных ситуациях (так, были рассмотрены методы Бонферрони и Холма, Тьюки, Беньямини-Хохберга и Беньямини-Йекутили). Разнообразие этих методов может создать ощущение неразберихи и привести в замешательство даже опытных исследователей. Тем не менее, между многими методами существует большое сходство. Более того, можно показать, что некоторые методы, известные и используемые под разными названиями и для разных целей, с математической точки зрения эквиваленты (например, тесты Тьюки и Даннета). Используя теорию общих линейных моделей, проф. Франк Брeтц и соавт. (Bretz et al. 2010) разработали общую методологическую схему, объединяющую большинство классических критериев для множественной проверки гипотез. Как это часто происходит в наши дни, соответствующие методологические подходы были реализованы в дополнительном пакете для R - multcomp (от "multiple comparisons" - "множественные сравнения"). Цель данного сообщения - дать описание основных возможностей этого пакета.  Следует подчеркнуть, что это описание будет иметь лишь поверхностный характер. Для полноты картины следует раздобыть указанную выше книгу (Bretz et al. 2010)  - интересующиеся читатели найдут в ней подробные математические выкладки и множество примеров R кода.