Применяя однофакторный дисперсионный анализ, мы можем проверить нулевую гипотезу о том, что все сравниваемые группы происходят из одной генеральной совокупности, и следовательно их средние значения не различаются, т.е. \(H_0: \mu_1 = \mu_2 = \dots = \mu_m\). Если нулевую гипотезу не удается отвергнуть при заданном уровне значимости (например, \(\alpha = 0.05\)), в дальнейшем анализе, в принципе, нет необходимости. Но что, если нулевая гипотеза отвергается? В этом случае мы делаем заключение о том, что средние значения сравниваемых групп значительно различаются (другими словами, изучаемый фактор оказывает существенное влияние на интересующую нас переменную). Это единственный вывод, который можно сделать при помощи дисперсионного анализа как такового. Однако обычно нам интересно пойти дальше и выяснить, где именно лежат различия, т.е. какие именно группы отличаются друг от друга. Чтобы узнать это, необходимо выполнить попарные сравнения средних значений имеющихся групп. Как было отмечено ранее, критерий Стьюдента "в чистом виде" для таких сравнений неприменим в силу возникновения эффекта множественных сравнений. Теоретически, Р-значения, получаемые при помощи критерия Стьюдента можно было бы скорректировать при помощи поправки Бонферрони. Однако при наличии большого числа сравниваемых групп метод Бонферрони становится очень консервативным, часто не позволяя отвергнуть даже те гипотезы, которые со всей очевидностью должны быть отвергнуты. Для решения описанной проблемы (т.е. для выполнения большого числа попарных сравнений групповых средних без потери статистической мощности) было разработано несколько методов. Это сообщение посвящено одному из них - популярному критерию Тьюки, или критерию достоверно значимой разности Тьюки (англ. Tukey's honestly significant difference test, или просто Tukey's HSD test). Критерий назван так в честь предложившего его американского математика и статистика Джона Тьюки (John Tukey).
Немного теории
Критерий Тьюки используется для проверки нулевой гипотезы \(H_0: \mu_B = \mu_A\) против альтернативной гипотезы \(H_0: \mu_B \neq \mu_A\), где индексы \(A\) и \(B\) обозначают любые две сравниваемые группы. При наличии \(m\) групп всего возможно выполнить \(m(m - 1)/2\) попарных сравнений.
Первый шаг заключается в упорядочивании всех имеющихся групповых средних значений по возрастанию (от 1 до \(m\)). Далее выполняют попарные сравнения этих средних так, что сначала сравнивают наибольшее среднее с наименьшим, т.е. \(m\)-ое с 1-ым, затем \(m\)-ое со 2-ым, 3-м, и т.д. вплоть до \((m - 1)\)-го. Затем предпоследнее среднее, \((m - 1)\)-ое, тем же образом сравнивают с 1-ым, 2-ым, и т.д. до \((m - 2)\)-го. Эти сравнения продолжаются до тех пор, пока не будут перебраны все пары.
Указанные сравнения выполняются при помощи критерия Тьюки, который представляет собой модифицированный критерий Стьюдента:
\[ q = \frac{\bar{x}_B - \bar{x}_A}{SE} \]
Отличие от критерия Стьюдента заключается в том, как рассчитывается стандартная ошибка \(SE\):
\[ SE = \sqrt{\frac{MS_w}{n}}, \]
где \(MS_w\) - рассчитываемая в ходе дисперсионного анализа внутригрупповая дисперсия.
Приведенная формула для критерия Тьюки верна для случаев, когда все сравниваемые группы содержат одинаковое число наблюдений, \(n\). Если сравниваемые группы неодинаковы по размеру, стандартная ошибка будет рассчитываться следующим образом:
\[ SE = \sqrt{\frac{MS_w}{2} \left ( \frac{1}{n_A} + \frac{1}{n_B} \right ) } \]
Благодаря тому обстоятельству, что в приведенные выше формулы стандартной ошибки входит внутригрупповая дисперсия \(MS_w\), обеспечивается контроль над групповой вероятностью ошибки первого рода. Именно это делает критерий Тьюки подходящим критерием для выполнения большого числа попарных сравнений групповых средних.
Проверяемые нулевые гипотезы принимают или отвергают либо путем сравнения получаемых значений критерия \(q\) с определенным критическим значением для выбранного уровня значимости, либо рассчитывая соответствующие Р-значения (подробнее см. примеры для критерия Стьюдента).
Реализация в R
В R множественные сравнения групповых средних при помощи теста Тьюки можно выполнить несколькими способами. В этом сообщении мы рассмотрим функцию TukeyHSD(), входящую в базовую версию R.
В качестве примера используем данные по содержанию стронция (мг/мл) в пяти водоемах США (пример заимствован из книги Zar 1999):
waterbodies <- data.frame(Water = rep(c("Grayson", "Beaver", "Angler", "Appletree", "Rock"), each = 6), Sr = c(28.2, 33.2, 36.4, 34.6, 29.1, 31.0, 39.6, 40.8, 37.9, 37.1, 43.6, 42.4, 46.3, 42.1, 43.5, 48.8, 43.7, 40.1, 41.0, 44.1, 46.4, 40.2, 38.6, 36.3, 56.3, 54.1, 59.4, 62.7, 60.0, 57.3) )
На рисунке ниже эти данные представлены графически:
Необходимо выяснить, 1) есть ли существенные различия между этими водоёмами по содержанию стронция в целом и, если есть, 2) какие именно водоемы отличаются друг от друга. Для ответа на первый вопрос выполним дисперсионный анализ при помощи функции aov():
Как видно из полученных результатов, обследованные водоемы статистически значимо различаются по содержанию стронция. Для того чтобы выяснить, где именно лежат различия, достаточно подать объект M на функцию TukeyHSD():
В первом столбце полученной таблицы перечислены пары сравниваемых водоемов. Во втором столбце содержатся разности между соответствующими групповыми средними. Третий и четвертый столбцы содержат значения нижнего (lwr) и верхнего (upr) 95%-ных доверительных пределов для соответствующих разностей. Наконец, в пятом столбце представлены Р-значения для каждой из сравниваемых пар водоемов. Хорошо видно, что существенной разницы в парах "Appletree-Angler", "Beaver-Angler" и "Beaver-Appletree" нет (Р > 0.05), тогда как во всех остальных случаях разница статистически значима. В целом полученные результаты хорошо согласуются визуальной оценкой различий, которую можно сделать, глядя на приведенную выше диаграмму размахов.
Результаты попарных сравнений групповых средних можно легко изобразить на графике:
На представленном рисунке приведены разности между групповыми средними (Differences in mean levels of Water) и их доверительные интервалы, рассчитанные с учетом контроля над групповой вероятностью ошибки (95% family-wise confidence level). В трех случаях доверительные интервалы включают 0, что указывает на отсутствие различий между соответствующими группами (сравните с Р-значениями выше).
Условия применимости критерия Тьюки
Хотя теория того не требует, критерий Тьюки и другие подобные ему методы рекомендуется применять после того, как дисперсионный анализ установил наличие существенной разницы между группами в целом (Zar 1999). В связи с этим критерий Тьюки относится к методам апостериорного анализа (post-hoc analysis).
Критерий Тьюки имеет те же условия применимости, что и собственно дисперсионный анализ, т.е. нормальность распределения данных и (особенно важно!) однородность групповых дисперсий (подробнее см. здесь). Устойчивость к отклонению от этих условий, равно как и статистическая мощность критерия Тьюки, возрастают при одинаковом числе наблюдений во всех сравниваемых группах (Zar 1999).
Необходимо выяснить, 1) есть ли существенные различия между этими водоёмами по содержанию стронция в целом и, если есть, 2) какие именно водоемы отличаются друг от друга. Для ответа на первый вопрос выполним дисперсионный анализ при помощи функции aov():
Как видно из полученных результатов, обследованные водоемы статистически значимо различаются по содержанию стронция. Для того чтобы выяснить, где именно лежат различия, достаточно подать объект M на функцию TukeyHSD():
TukeyHSD(M)
Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Sr ~ Water, data = waterbodies) $Water diff lwr upr p adj Appletree-Angler -2.9833333 -8.281979 2.315312 0.4791100 Beaver-Angler -3.8500000 -9.148645 1.448645 0.2376217 Grayson-Angler -12.0000000 -17.298645 -6.701355 0.0000053 Rock-Angler 14.2166667 8.918021 19.515312 0.0000003 Beaver-Appletree -0.8666667 -6.165312 4.431979 0.9884803 Grayson-Appletree -9.0166667 -14.315312 -3.718021 0.0003339 Rock-Appletree 17.2000000 11.901355 22.498645 0.0000000 Grayson-Beaver -8.1500000 -13.448645 -2.851355 0.0011293 Rock-Beaver 18.0666667 12.768021 23.365312 0.0000000 Rock-Grayson 26.2166667 20.918021 31.515312 0.0000000
В первом столбце полученной таблицы перечислены пары сравниваемых водоемов. Во втором столбце содержатся разности между соответствующими групповыми средними. Третий и четвертый столбцы содержат значения нижнего (lwr) и верхнего (upr) 95%-ных доверительных пределов для соответствующих разностей. Наконец, в пятом столбце представлены Р-значения для каждой из сравниваемых пар водоемов. Хорошо видно, что существенной разницы в парах "Appletree-Angler", "Beaver-Angler" и "Beaver-Appletree" нет (Р > 0.05), тогда как во всех остальных случаях разница статистически значима. В целом полученные результаты хорошо согласуются визуальной оценкой различий, которую можно сделать, глядя на приведенную выше диаграмму размахов.
Результаты попарных сравнений групповых средних можно легко изобразить на графике:
На представленном рисунке приведены разности между групповыми средними (Differences in mean levels of Water) и их доверительные интервалы, рассчитанные с учетом контроля над групповой вероятностью ошибки (95% family-wise confidence level). В трех случаях доверительные интервалы включают 0, что указывает на отсутствие различий между соответствующими группами (сравните с Р-значениями выше).
Условия применимости критерия Тьюки
Хотя теория того не требует, критерий Тьюки и другие подобные ему методы рекомендуется применять после того, как дисперсионный анализ установил наличие существенной разницы между группами в целом (Zar 1999). В связи с этим критерий Тьюки относится к методам апостериорного анализа (post-hoc analysis).
Критерий Тьюки имеет те же условия применимости, что и собственно дисперсионный анализ, т.е. нормальность распределения данных и (особенно важно!) однородность групповых дисперсий (подробнее см. здесь). Устойчивость к отклонению от этих условий, равно как и статистическая мощность критерия Тьюки, возрастают при одинаковом числе наблюдений во всех сравниваемых группах (Zar 1999).
Мы – небольшая группа, которая затеяла некоммерческий краудфандинговый фармакологический проект. Суть его сводится к тестированию веществ на крысах. У нас есть контракт с одной лабораторией, и мы можем за ту сумму, которую планируем собрать, испытать 5 веществ (плюс плацебо и интактные) на 7 крысах, т.е. 7 групп по 7 крыс.
Проблема в том, что мы не знаем, как прикинуть, какую статистически значимую разницу мы сможем на таком количестве животных засечь, и нам не хочется проводить исследование, заведомо понимая, что статистически достоверного результата не будет. Сами мы химики, и со сложной статистикой не сталкивались, а там ненормальное распределение и куча множественных сравнений. У нас есть материалы одной диссертации, которые вроде как должны помочь, но мы не очень понимаем, как именно их использовать. Помогите, нам, пожалуйста. С уважением, Дмитрий.
(superhimik.livejournal.com)
Описанная Вами проблема – по сути, проблема о статистической мощности при наличии нескольких зависимых переменных – не имеет простого решения. Если копнете литературу по клиническим испытаниям – увидите, насколько эта проблема обширна и обсуждаема. В значительной мере отсутствие «простого» решения затрудняется тем, что не существует какого-то общепринятого подхода (читай «модели») для анализа такого рода данных, тогда как разговор о статистической мощности можно вести только в приложении к конкретному методу/модели. Кроме того, сам исследовательский вопрос можно сформулировать по-разному, что также будет определять выбор соответствующих статистических методов (например, можно попробовать multivariate analysis of variance (MANOVA), но можно также рассматривать все и как проблему классификации на основе большого числа предикторов, с последующим выявлением предикторов, наиболее «важных» для разграничения классов).
Максимум, что я могу сделать со своей стороны для вас – это подсказать, в «какую сторону смотреть» для нахождения приемлемого решения. Для начала, несколько, статей, обсуждающих проблему:
http://goo.gl/dj2iYO
http://goo.gl/rvfelw
http://goo.gl/UPUAjW
http://goo.gl/FAyNrp
Многие из обсуждаемых в этих статьях методы легко реализуются в R. Примеры здесь:
http://r-analytics.blogspot.de/2014/01/multcomp.html
http://r-analytics.blogspot.de/2013/11/blog-post_11.html
http://r-analytics.blogspot.de/2013/11/blog-post.html
http://r-analytics.blogspot.de/2013/10/blog-post_13.html
Для R имеются также специальные пакеты, позволяющие выполнять множественные сравнения при наличии нескольких зависимых переменных:
http://cran.r-project.org/web/packages/multxpert/index.html
http://cran.r-project.org/web/packages/SimComp/index.html
см. также комментарии к сообщению: http://r-analytics.blogspot.de/2013/10/blog-post.html
Наконец, просто чтобы примерно прикинуть, чего можно ожидать от ваших размеров групп, попробуйте сделать расчеты мощности, игнорируя тот факт, что в действительности будет проводиться большое число сравнений для нескольких зависимых переменных, измеренных на одних и тех же животных. См. примеры здесь:
http://r-analytics.blogspot.de/2012/10/t.html
http://r-analytics.blogspot.de/2012/10/blog-post.html
http://www.statmethods.net/stats/power.html
Надеюсь, это как-то поможет. Успехов с проектом!
Интересная статья, спасибо!
Не понятен один момент - внутригрупповая дисперсия для подсчёта критерий Тьюки (MSw) считается на двух проверяемых парах групп в данный момент или над всеми выборками?
При расчете доверительных интервалов используется квантиль(95%)*SE. В случае со Стьюдентом квантиль находится по известной таблице со степенью свободы n-1. Как найти квантиль в данном случае и какие у него будут степени свободы?
Александр
q <- kruskal.test(возраст ~ Диагноз, data = mydata)
TukeyHSD(q)
# Диагноз: Factor w/ 5 levels "Норма","ОГ","ПОУГ",..: 1 2 4 5 4 4
И второй вопрос: реализована ли в R возможность расчета отличий средних значений другой переменной (например уровень систолического артериального давления), с поправкой на возраст, при условии отличного от нормального распределения возраста в подгруппах.
Заранее спасибо за ответ.
Отправить комментарий