02 июня 2012

Протокол разведочного анализа данных: проверка однородности групповых дисперсий



В этом сообщении я продолжаю начатое ранее описание протокола разведочного анализа данных. Авторы оригинальной статьи, в которой изложен этот протокол (Zuur et al. 2010), рекомендуют на втором этапе разведочного анализа проверить условие однородности дисперсии (англ. вариант термина - "homogeneity of variance").

Однородность групповых дисперсий является важным условием применимости дисперсионного анализа (ANOVA) и других линейных моделей регрессионного типа, а также ряда методов многомерной статистики (например, дискриминантного анализа). На Рисунке 1 приведены категоризованные диаграммы размахов для значений интенсивности потребления пищи канадским веретенником - птицы из семейства бекасовых (Zuur et al. 2010). Если бы стояла задача применить параметрический дисперсионный анализ для установления эффектов пола и периода наблюдений на интенсивность потребления пищи веретенником (а также взаимодействия между этими двумя факторами), то должны были бы выполняться следующие условия:

  • дисперсии не различаются у самцов и самок;
  • дисперсии не различаются между периодами наблюдений;
  • дисперсии не различается между периодами наблюдения у каждого из полов.
Рисунок 1. Категоризованные диаграммы размахов, обобщающие данные по интенсивности потребления пищи (Intake rate) канадским веретенником (Zuur et al. 2010). Данные разбиты в соответствии с полом птиц (женский - Female, мужской - Male), а также периодом наблюдений (лето - Summer, перед началом миграции - Pre-migration, и зима - Winter). См. объяснения в тексте

Как видно из Рисунка 1, дисперсия интенсивности потребления пищи у самцов низка зимой и несколько повышается в летний период, но в целом в приведенном примере различия групповых дисперсий невелики и не требуют особых действий со стороны аналитика. Однако такая ситуация будет наблюдаться далеко не всегда. При этом показано, что если отношение между самой высокой и самой низкой групповыми дисперсиями превышает 4, то оценки параметров моделей, основанных на методе наименьших квадратов, будут значительно смещенными (см. Fox (2008) Applied Regression Analysis and Generalized Linear Models. Sage Publications, Inc.).

При построении регрессионных моделей проверка условия однородности дисперсии выполняется путем графического анализа распределения остатков: по оси ординат откладывают значения остатков, а по оси абсцисс - предсказываемые моделью средние значения зависимой переменной. Точки на таком графике должны располагаться случайным образом, не формируя какого-либо четкого паттерна. При наличии в модели номинальных переменных (факторов), для остатков строят категоризованные диаграммы размахов вроде той, что приведена на рисунке выше (дисперсии остатков в отдельных группах, соответствующих уровням фактора, должны быть сходными).

При выявлении существенной неоднородности дисперсии возможны два решения: определенное преобразование исходных данных (например, логарифмирование) или использование моделей, допускающих неоднородность дисперсии (например, модели, основанные на обобщенном методе наименьших квадратов - Generalized Least Squares Models).

Помимо графических способов, в R имеются также функции для формальной проверки нулевой гипотезы о равенстве дисперсий в k группах:


Комментариев нет :

Отправить комментарий