В любом хорошем учебнике по статистике можно узнать, что наличие тесной корреляции между двумя переменными не обязательно указывает на причинно-следственную связь между ними. Другими словами, наличие корреляции между Х и Y совсем необязательно означает, что именно изменения в Х являются причиной сопутствующих изменений в Y. Ведь вполне возможно существование некой неизвестной нам (латентной) переменной Z, которая оказывает влияние и на Х, и на Y, являясь истинной причиной ковариации между ними. И тем не менее, достаточно часто, в том числе в научных публикациях, можно встретить безосновательную интерпретацию корреляции именно как причинно-следственной связи.
R: Анализ и визуализация данных
26 апреля 2013
22 апреля 2013
Новая книга по основам прогнозирования (с использованием R)
Проф. Роб Хиндман (Rob J Hyndman, Университет Монаша, Австралия), автор известного пакета forecast для R (полное описание см. здесь), сообщил в своем блоге об окончании работы над книгой под названием "Forecasting: principles and practice" (Прогнозирование: принципы и практика). Написанная в соавторстве с проф. Джорджем Атанасопулосом (George Athanaspoulos, Университет Монаша, Австралия), книга находится в открытом доступе на сайте основанной проф. Хиндманом издательской компании OTexts. Книга содержит описание основных методов, используемых для прогнозирования в экономических исследованиях, энергетике, и др. областях. Книга написана простым языком и содержит многочисленные примеры, которые сопровождаются полностью воспроизводимым R-кодом. Это делает книгу не только отличным введением в область статистического прогнозирования, но и очень полезным руководством для практикующих аналитиков, работающих с R. Вот ее оглавление (в сокращенном виде):
1. Приступая к работе (Getting started)
2. Набор инструментов прогнозиста (The forecaster's toolbox)
3. Субъективные прогнозы (Judgmental forecasts)
4. Простая регрессия (Simple regression)
5. Множественная регрессия (Multiple regression)
6. Декомпозиция временных рядов (Time series decomposition)
7. Экспоненциальное сглаживание (Exponential smoothing)
8. ARIMA-модели (ARIMA models)
9. Продвинутые методы прогнозирования (Advanced forecasting method)
Рекомендую!
20 апреля 2013
Двухфакторный дисперсионный анализ
Как следует из названия, задача рассмотренного нами ранее однофакторного дисперсионного анализа заключается в выяснении влияния какого-то одного фактора на интересующую нас количественную переменную. Однако очень редко тот или иной процесс определяется только одним фактором. Напротив - обычно наблюдается одновременное влияние многих факторов. Задача исследователя - выявить, какие факторы оказывают существенное влияние на изучаемое явление, а какие - можно исключить из рассмотрения. Как будет показано ниже, двухфакторный дисперсионный анализ (англ. two-way analysis of variance, или two-way ANOVA) позволяет установить одновременное влияние двух факторов, а также взаимодействие между этими факторами. При наличии более двух факторов говорят о многофакторном дисперсионном анализе (англ. multifactor ANOVA; не путать с MANOVA - multivariate ANOVA!).
07 апреля 2013
Большое событие - вышла 3-я версия R
3 апреля 2013 г. была опубликована новая версия R - v3.0.0. Завершение цикла версий 2.х не означает каких-либо глобальных изменений в языке R - просто разработчики решили таким образом зафиксировать текущее состояние ядра языка. Тем не менее, новая версия, конечно, включает и некоторые существенные изменения, из которых наиболее важным называют реализацию возможности работы с "длинными векторами" (т.е. векторами длиной > 2^31). Эта новая опция весьма актуальна для анализа "больших данных", с которыми исследователи сталкиваются в таких областях, как биоинформатика, метеорология, анализ данных, генерируемых мобильными устройствами, анализ социальных сетей, анализ биржевых данных, и т.п. В соответствии с этим нововведением, на 64-битных машинах больше не будет ограничений на размер оперативной памяти, используемой R. С полным перечнем обновлений, представленных в R 3.0.0, можно ознакомиться здесь.
Важный момент: если вы решите обновить R путем инсталляции поверх более старой версии системы, все дополнительные пакеты также придется переуставить заново. Это можно сделать при помощи команды update.packages(checkBuilt = TRUE, ask = F)
30 марта 2013
Контрасты в линейных моделях, содержащих категориальные предикторы
Как было показано ранее, однофакторный дисперсионный анализ (ANOVA) представляет собой частный случай общей линейной модели, в которой единственный предиктор представлен категориальной переменной (фактором) с несколькими уровнями (2 и более). В случае многофакторного дисперсионного анализа имеется два или более интересующих нас фактора. Категориальные предикторы могут быть также включены в модели с количественными предикторами, и тогда мы будем иметь дело с ковариационным анализом. Важным понятием при работе с категориальными предикторами, которому, к сожалению, уделяется недостаточно внимания в соответствующей методической литературе, является понятие "контрастов" (англ. contrasts). Ниже я постараюсь дать небольшое введение на эту тему и привести примеры применения контрастов в R. Для простоты изложения речь будет идти только об однофакторном дисперсионном анализе.
24 марта 2013
Дисперсионный анализ как частный случай общей линейной модели
В предыдущем сообщении было показано, что дисперсионный анализ (ANOVA) можно рассматривать как линейную статистическую модель. Более того, было отмечено, что ANOVA является частным случаем т.н. общей линейной модели (ОЛМ) (General Linear Model). Понимание концепции ОЛМ очень важно для осмысленного использования lm() и других функций R, позволяющих создавать линейные модели. Поэтому стоит остановиться на ОЛМ более подробно.
Подписаться на:
Сообщения (Atom)