20 июля 2012

Протокол разведочного анализа данных: выявление взаимосвязи между значениями анализируемой переменной



Одним из важнейших условий применимости большинства статистических методов является отсутствие взаимосвязи между значениями анализируемой переменной (Zuur et al. 2010). В то же время ситуации, когда это условие не выполняется, встречаются очень часто. Так, при проведении социологических опросов велика вероятность, что ответы жителей одного города будут схожи, но в среднем окажутся отличными от ответов жителей другого города. В ходе экологических исследований может выясниться значительное сходство особей по какому-либо праметру внутри одной популяции, но существенные различия по этому параметру между популяциями того же вида. Примеров такого рода существует очень много, и поэтому выявлению корреляции между значениями исследуемых переменных следует уделять должное внимание на стадии разведочного анализа данных. Игнорирование зависимости между значениями той или иной переменной может значительно повысить вероятность ошибки первого рода (например, при выполнении регрессионного анализа эта ошибка может возрастать до 400% - см. Ostrom 1990).

Корреляция между значениями анализируемой переменной может быть как пространственной, так и временной, и этим будут определяться подходы, используемые для выявления соответствующих корреляций. Один из наиболее простых подходов заключается в построении графика зависимости значений той или иной пременной от времени или пространственных координат. Наличие каких-либо четких паттернов на таком графике будет указывать на существование корреляции между значениями этой переменной. На рис. 1 показаны два небольших временных ряда, отражающих динамику численности двух видов птиц на одном из побережий Аргентины (Zuur et al. 2010). Динамика численности первого вида деменстрирует четкую закономерность, чего нельзя сказать о втором виде.

Рисунок 1. Динамика численности двух прибрежных видов птиц (по: Zuur et al. 2010).


Более формальным способом проверки наличия временной взаимосвязи между значениями анализируемой переменной является расчет автокорреляционной функции. При оценке этой функции последовательно происходит рассчет коэффициента корреляции Пирсона между значениями того же временного ряда, но каждый раз взятых со сдвигом по времени на определенную величину k (лаг). В R для расчета автокорреляции служит функция ACF(). Результатом работы этой функции является построение графика, подобного приведенному на рис. 2. Из этого рисунка хорошо видна тесная временная взаимосвязь между значениями численности C. fuscicollis на протяжении первых четырех недель (т.е. до k = 2; величина лага k соответствует двум неделям). В то же время для второго вида - L. dominicanus - подобная зависимость не наблюдается.


Рисунок 2. Графики автокорреляционной функции для динамики численности двух видов прибрежных птиц (по: Zuur et al. 2010). Один временной лаг равен двум неделям. Пунктирные линии синего цвета соответствуют 95%-ным доверительным интервалам. По определению, автокорреляция для нулевого лага равна 1.


При анализе нерегулярных временных рядов, а также для выявления пространственной корреляции между значениями анализируемой переменной используют т.н. вариограммы. С доступным математическим описанием этого метода можно ознакомиться, например, здесь. Функции для построения вариограмм входят в состав нескольких пакетов для R (например, функция Variogram() из стандартного R-пакета nlme; функция variog() из пакета geoR; функция variogram() из пакета gstat).

Что же делать, если разведочный анализ данных выявил наличие временной или пространственной зависимости между значениями интересующей исследователя переменной? Ответ таков: использовать статистические методы, позволящие учесть соответствующую корреляцию. Речь здесь, прежде всего, идет о моделях на основе обобщенного метода наименьших квадратов, моделях со смешанными эффектами (Pinheiro and Bates 2000; Zuur et al. 2009), также обобщенных аддитивных моделях (Wood 2006).



Этим сообщением я завершаю рассмотрение протокола разведочного анализа данных, предложенного Аланом Цууром и коллегами (Zuur et al. 2010). В качестве обобщения привожу ссылки на остальные статьи из этой серии:
  1. Выявление выбросов
  2. Проверка однородности групповых дисперсий
  3. Проверка на нормальность распределения
  4. Выявление избыточного количества нулевых значений
  5. Выявление коллинеарности между предикторами
  6. Выявление характера связи между переменными
  7. Выявление взаимодействий между предикторами

2 комментария :

Анонимный комментирует...

а продолжение будет? после разведки обычно бывает анализ данных :)

Сергей Мастицкий комментирует...

"Обязательно бахнем, и не раз. Весь мир в труху!.. Но потом" (к/ф "ДМБ")
:)

Отправить комментарий