Проверяя условие нормальности распределения данных, необходимо, однако, хорошо представлять себе, в каких случаях его выполнение является критическим для применения конкретного статистического метода. Так, например, метод главных компонент (Principle Components Analysis, PCA) не требует, чтобы данные были распределены нормально (Joliffe 2002). Линейная регрессия (Linear Regression) хотя и предполагает нормальность распределения зависимой переменной, является достаточно робастным методом при незначительных отклонениях от этого условия (Fitzmaurice et al. 2004). В то же время для успешного применения дискриминантного анализа (Discriminant Analysis) нормальность распределениях признаков в каждой группе классифицируемых объектов - условие обязательное (Huberty 1994).
Существует несколько способов проверки анализируемых данных на нормальность распределения. Все их можно разделить на две рассмотренные ниже группы.
Графические способы
Самый простой графический способ проверки характера распеделения данных - построение гистограммы. В одном из предыдущих сообщений я подробно описал, как создавать гистограммы при помощи R-функции hist(). Если гистограмма имеет колоколообразный симметричный вид, можно сделать заключение о том, что анализируемая переменная имеет примерно нормальное распределение. Однако при интерпретации гистограмм следует соблюдать осторожность, поскольку их внешний вид может сильно зависеть как от числа наблюдений, так и от шага, выбранного для разбиения данных на классы (подробнее см. здесь). Кроме того, достаточно часто при анализе нормально распределенных но смешанных совокупностей гистограммы приобретают асимметричный вид, вводя исследователя в заблуждение (Рисунок 1).
Рисунок 1. Гистограмма распределения веса 1193 воробьев (по: Zuur et al. 2010). На графике слева приведены объединенные данные для июня, июля и августа. Поскольку вес птиц зависит от времени года, гистограмма приобретает асимметричный вид. На графике справа показаны те же данные, но отдельно по каждому месяцу. Из этого графика хорошо видно, что на самом деле вес воробьев как биологический признак имеет примерно нормальное распределение.
Другим очень часто используемым графическим способом проверки характера распределения данных является построение т.н. графиков квантилей (Q-Q plots, Quantile-Quantile plots). На таких графиках изображаются квантили двух распределений - эмпирического (т.е. построенного по анализируемым данным) и теоретически ожидаемого стандартного нормального распределения. При нормальном распределении проверяемой переменной точки на графике квантилей должны выстраиваться в прямую линию, исходящую под улом 45 градусов из левого нижнего угла графика. Графики квантилей особенно полезны при работе с небольшими по размеру совокупностями, для которых невозможно построить гистограммы, принимающие какую-либо выраженную форму.
В R для построения графиков квантилей можно использовать базовую функцию qqnorm(), которая в качестве основного аргумента принимает вектор со значениями анализируемой переменной (Рисунок 2):
Рисунок 2. Пример графика квантилей для нормально распределенной совокупности, состоящей из 500 наблюдений.
Следует отметить, что интерпретация графиков квантилей при работе с небольшими выборками, происходящими из нормально распределенных генеральных совокупностей, требует определенного навыка. Дело в том, что при небольшом числе наблюдений точки на графике квантилей могут не всегда образовывать четко выраженную прямую линию. В качестве иллюстрации этого утверждения на Рисунке 3 приведены графики квантилей для 5 случайным образом сгенерированных нормально распределенных выборок по 20 наблюдений каждая (если использованный в примере пакет DAAG у Вас не установлен, выполните команду install.packages("DAAG")):
Рисунок 3. Графики квантилей для пяти случайным образом сгенерированных нормально распределенных выборок (n = 20 в каждой). Обратите внимание на то, что фигура, в которую выстраваются точки на некоторых графиках далека от прямой линии. Причина данного эффекта - в небольшом объеме наблюдений.
Формальные тесты
Существует целый ряд статистических тестов, специально разработанных для проверки нормальности распределения данных. В общем виде проверяемую при помощи этих тестов нулевую гипотезу можно сформулиировать так: "Анализируемая выборка происходит из генеральной совокупности, имеющей нормальное распределение". Если получаемая при помощи того или иного теста вероятность ошибки Р оказывается меньше некоторого заранее принятого уровня значимости (например, 0.05), нулевая гипотеза отклоняется.В R реализованы практически все имеющиеся тесты на нормальность - либо в виде стандарных функций, либо в виде функций, входящих в состав отдельных пакетов. Примером базовой функции является shapiro.test(), при помощи которой можно выполнить широко используемый тест Шапиро-Уилка:
shapiro.test(rnorm(500)) Shapiro-Wilk normality test data: rnorm(500) W = 0.9978, p-value = 0.7653 # P > 0.05 - нулевая гипотеза не отвергается
Ниже перечислены функции из пакета nortest, реализующие другие распространенные тесты на нормальность (установить этот покет можно командой install.packages("nortest")):
- ad.test() - тест Андерсона-Дарлинга
- cvm.test() - тест Крамера фон Мизеса
- lillie.test() - тест Колмогорова-Смирнова в модификации Лиллиефорса
- pearson.test() - критерий хи-квадрат Пирсона
- sf.test() - тест Шапиро-Франсия (см. Thode 2002)
По поводу выбросов: это рекомендуемый первый этап РДА. Соответственно, с него я и начал рассмотрение протокола, предалагаемого Zuur et al. (2010). См. это сообщение: http://r-analytics.blogspot.de/2012/05/blog-post_28.html
Есть массив данных (в районе 1000 наблюдений) по содержанию загрязняющих веществ в воде.
Проверка на нормальность показала что данные распределены логнормально или бимодально.
Можем ли мы при описании данных использовать среднее значение и стандартное отклонение. Или корректнее использовать моду и квартили, как менее чувствительные к экстремальным значениям?
Критерии согласия - это, все-таки, тесты на принадлежность к распределению с полностью известными параметрами (т.н. простая гипотеза). В случае сложной гипотезы (когда параметры определяются по той же самой выборке) критерии согласия теряют свойство свободы от распределения.
Словом, и проверка нормальности, и критерии согласия - процедура, ненужная при обработке реальных данных.
Отправить комментарий