В практике статистического анализа часто возникает ситуация, когда на одном и том же наборе данных выполняется проверка большого числа гипотез. Например, интерес может представлять выполнение всех возможных попарных сравнений средних значений нескольких экспериментальных групп. В других случаях несколько экспериментальных групп могут сравниваться с одной контрольной группой. Особенно большие количества одновременно проверяемых гипотез можно встретить в некоторых областях биологии: например, при работе с данными, которые получают при помощи технологии микрочипов, проверяются гипотезы в отношении уровней экспресии нескольких тысяч генов (см., например, здесь). По определению, при проверке каждой статистической гипотезы закладывается возможность ошибки первого рода (т.е. отклонение верной нулевой гипотезы; см. например, здесь). Чем больше гипотез мы проверяем на одних и тех же данных, тем больше будет вероятность допустить как минимум одну такую ошибку. Этот явление называют эффектом множественных сравнений (англ. multiple comparisons или multiple testing). Рассмотрим проблему множественных сравнений подробнее.
Представим, что у нас имеются три группы, подвергшиеся разным уровням воздействия определенного фактора. Как выяснить влияние этого фактора на интересующую нас переменную-отклик? При выполнении определенных условий, данную задачу можно решить, сравнив средние значения имеющихся групп при помощи однофакторного дисперсионного анализа. Однако дисперсионный анализ позволит сделать только вывод типа "да/нет", т.е. эффект изучаемого фактора либо имеется, либо отсутствует. Допустим, что результаты дисперсионного анализа указывают на наличие эффекта. Как теперь выяснить, какие именно группы различаются между собой?
Одним из (очень гибких) способов ответить на этот вопрос является использование линейных контрастов. К сожалению, эта концепция мало знакома большинству исследователей. Зато им хорошо знаком t-критерий Стьюдента, который они часто с легкостью рассчитывают для каждой пары сравниваемых групп (см. рисунок ниже). Получив достаточно высокое значение t в каком-либо из этих сравнений, исследователь сообщает, что "P < 0.05". Это утверждение означает, что вероятность ошибочного заключения о существовании различий между групповыми средними не превышает 0.05 (конечно, если принят именно этот уровень значимости). Однако в действительности это не так - вероятность ошибки значительно превышает 5%. Разберемся, почему.
Пример неверного использования t-критерия Стьюдента для выполнения попарных сравнений трех групп |
Выполняя тест Стьюдента, исследователь проверяет нулевую гипотезу об отсутствии разницы между генеральными средними двух сравниваемых групп. Сравнивая группы A и В, он рискует ошибиться с вероятностью 5%. Точно такая же вероятность ошибки будет иметь место и при сравнении В с С и А с С. Соответственно, вероятность ошибиться хотя бы в одном из этих трех сравнений составит
\[P' = 1 - (1 - \alpha)^m = 1- (1 - 0.05)^3 = 0.143, \]
что гораздо выше 5%. Очевидно, что дальнейшее увеличение числа проверяемых гипотез будет неизбежно сопровождаться возрастанием ошибки первого рода.
Для устранения эффекта множественных сравнений существует большой арсенал методов,. Этим методам будут посвящены следующие несколько сообщений.
Мне как изучающему статистику этот момент не очень понятен. В вашем примере с попарными сравнениями групп все ясно - речь идет о вероятности допустить *как минимум* одну ошибку. Однако в случае с серией модели нас интересует только последняя модель. Старые модели отбрасываются, и у нас интересует какова вероятность подтверждения гипотезы в рамках одной-единственной модели. Не могли бы вы прокомментировать этот аспект? Заранее спасибо.
1) Выбирать оптимальную модель (например, пошагово исключая незначимые параметры), игнорирую проблему множественных сравнений. Как ни странно, во многих случаях этот подход все же неплохо работает на практике. Имеется в виду разработка предсказательных моделей. Если же модель строится для выяснения того, какие факторы важны для изучаемого процесса или явления, проблема остается.
2) Контролировать вероятность ошибки. О том, как это делать при помощи R, есть целая книга и соответствующий пакет:
http://cran.r-project.org/web/packages/multcomp/index.html
http://www.crcpress.com/product/isbn/9781584885740
3) Уйти от Р-значений и использовать информационные критерии (AIC и его разновидности). Преимущество этого подхода - в полном исключении проблемы множественной проверки гипотез в ее классическом понимании. Недостаток: не всегда очевидно, какую разницу в значениях AIC считать достаточной для того, чтобы отдать предпочтение той или иной модели.
Для того, чтобы Вы лучше поняли, что делать в этой ситуации, советую прочитать пару сообщений, которые были опубликованы вслед за этим:
http://r-analytics.blogspot.de/2013/11/blog-post.html
http://r-analytics.blogspot.de/2013/11/blog-post_11.html
Там же Вы найдете ссылки на оригинальные работы, в которых описаны соответствующие методы и преведены примеры, для которых они применимы.
Предполагая, что в Вашем случае данные не позволяют использовать t-тест (http://r-analytics.blogspot.de/2012/03/t.html), выполняйте соответствующий непараметрический тест (http://r-analytics.blogspot.de/2012/05/blog-post_20.html), с последующей коррекцией Р-значений.
и пакет Mulcom, который является частью проекта Bioconductor (http://www.bioconductor.org/packages/2.12/bioc/html/Mulcom.html). Вот оригинальная статья с его описанием: http://www.biomedcentral.com/1471-2105/12/382
1) Как я понимаю, нужно сначала установить R на комп, а затем уже и этот пакет? Где его возможно скачать? Возможно всё очевидно, тогда прошу прощения за тугоумие.
2) В данном пакете примеры основаны на критерии Даннета, т.е. сравниваются имеющиеся группы с контрольной. У меня же цель немного другая... нужно сравнивать все группы между собой... тогда, скорее всего подходит критерий Тьюки. Как Вы считаете, изменится ли реализация вычислений и их последовательность, при смене критерия???
3) Среди аргументов функции есть такой как "base". Скажите пожалуйста, каково его назначение? И нужен ли он при смене критерия? (это к вопросу 2).
4) Ступор вызывает ещё такая проблема... как вбить такой многомерный датасет? Одно дело когда имеются группы и значение признака в каждой группе... а когда приводится несколько групп, несколько признаков, да и к тому же n каждого признака... Как следует поступить? (Например, группы: новорождённые (n=7), молодые (n=10), старые (n=8). Признаки: 25 аминокислот (20 протеиногенных и 5 - производные)
5) И последнее... Вы упомянули про преобразование данных к нормальному распределению. Я полностью тут с вами согласен. Но есть данные, выраженные в процентах...сведёт ли их преобразование арксинуса к нормальному распределению???
Заранее прошу прощения за большое количество вопросов :((((, сам пакет в принципе мне понятен, остались вот такие только недоделки. Заранее огромное спасибо за Ваши разъяснения!
2) В каком пакете? Какие примеры?
3) Назначение всех аргументов любой функции R всегда описано в соответствующем справочном файле: см. ?имя_фукнции
4) См. предыдущий пункт - абсолютно во всех справочных файлах указывается, в каком виде данные должны подаваться на ту или иную функцию. Кроме того, обычно приводятся и примеры.
5) Вы ожидаете, что кто-то сможет ответить на этот вопрос, не видя данных? Так не бывает.
В заключение - очень советую почитать эту страницу: http://stackoverflow.com/help/how-to-ask
Предположим, что в действительности никакого различия между группами нет (выборки были произведены из одной популяции). Если мы сделали только две выборки, то вероятность обнаружения Р<0.05 будет совершенно такой же как вероятность обнаружения Р>0.95 (то же справедливо и для любых других равных интервалов на шкале вероятностей), т.е. величина Р не содержит никакой информации о достоверности различия между группами, когда различия и нет. Теперь представим, что мы не знаем были произведены эти выборки из одной и той же популяции или из двух различных популяций. Очевидно, что один единственный тест не может помочь нам ответить на этот вопрос, поскольку он в принципе и в этом случае может привести к любому значению Р между нулем и единицей. Только множественные выборки и множественные сравнения между группами помогут решить эту задачу. Если мы проводим множественные тесты на выборках из одной популяции, то плотность встречаемости различных значений Р, как мы уже говорили, окажется одинаковой на любых равных интервалах на шкале от 0 до 1. Если выборки были произведены из различных популяций, то плотность распределения Р будет иметь пик в области малых значений Р и, следовательно, меньших, чем заранее установленное значение альфа, какое бы оно ни было. Вывод ясен: проведение множественных тестов является необходимым, если мы хотим сделать стастистический вывод о различии популяций. Низкое значение Р в первом тесте лишь подсказывает нам, что «да, есть некий шанс сделать открытие», и этот шанс несколько больше, чем в случае обнаружения большого значения Р в первом же тесте.
Теперь о вероятности совершения ошибки первого рода, которая измеряется величиной альфа, а не Р, как ошибочно думают некоторые. Вероятность невозможно вычислить по единственному событию, как невозможно вычислить скорость, зная пространственные координаты в любой единичный момент времени. После того как проведено множество тестов мы обнаружим, что количество случаев обнаружения Р в любом интервале, разумеется и в интервале от 0 до 0.05 тоже, прямо пропорциональна количеству тестов. В случае, если реальных различий между изучаемыми популяциями нет (т.е. выборки произведены из одной популяции), все равно, как и должно быть, количество ложных «открытий» будет расти с количеством тестов. Однако, с ростом их количества вероятность таких «открытий» не меняется, поскольку вероятность есть отношение количества интересующих нас событий (Р<0.05) к количеству всех событий (0<P<1). Исходя из этого очевидного факта, я совершенно не понимаю тех, кто предлагает вводить какие бы то ни было поправки к величине альфа, которая является всего лишь нашим предпочтением, т.е. произвольной величиной, никаким объективным образом не зависящим от количества совершаемых тестов. Введение поправок является, с одной стороны, излишним ужесточением критерия достоверности, а с другой стороны, приводит к парадоксу, указанному выше.
Владимир.
Поверьте, что парадокс, волнующий "ихтиолога" и Вас, волновал и продолжает волновать и многих других исследователей, и если бы он уже был "снят", то я бы обязательно поделился ссылкой на соответствующую работу (возможно такая работа и существует, но мне она, к сожалению, не известна). Могу лишь привести Вам следующую цитату из Wait TA and Campbell LG (2006) Controlling the false discovery rate and increasing statistical power in ecological research. Ecoscience 13(4): 439-442:
"What is m [количество проверяемых гипотез]? Is it the number of tests (P-values) in a single statistical table? Is it the total number of tests conducted over the course of one's career? These questions have been discussed extensively elsewhere (Perneger, 1998). We do not intend to resolve the debate over m's definition here. Instead, we simply recommend that however one might ordinarily determine m for Bonferroni-based correction for multiplicity, the same m could be used for a BH correction."
И несколько пояснений на следующее Ваше замечание: "Настораживает также ваше игнорирование этого вопроса (почему-то отвечает другой участник вашей группы статистиков)"
Наверное, стоит еще раз подчеркнуть, о чем этот блог. Как можно узнать из раздела "О проекте", "Этот блог - моя попытка сделать посильный вклад в продвижение R среди русскоязычных пользователей. Читатель найдет здесь примеры анализа и визуализации данных при помощи R, а также переводы документации по этой программе." Другими словами, это блог о R, а не о статистических методах как таковых. Здесь я описываю то, как соответствующие методы можно реализовать в R. Для удобства я также привожу краткие описания теории этих методов, но эти описания ни в коей мере не являются полными. Для этого читателю нужно "копать" самостоятельно, и я стараюсь помочь в этом, приводя полезные, как мне кажется, ссылки.
В том же разделе "О проекте" Вы можете узнать, что:
"4. Я не комментирую вопросы, которые носят тривиальный характер (ответы на такие вопросы, как правило, можно быстро найти в результате простого Google-поиска, включая поиск на английском языке).
5. В ряде случаев я не отвечаю на заданные в комментариях вопросы в связи тем, что:
- я просто не знаю на них ответов;
- у меня нет возможности и/или времени на них ответить.
Тем не менее такие вопросы остаются опубликованными в надежде, что с ответами помогут другие (более сведущие и/или менее занятые) посетители сайта."
Подскажите, пожалуйста: имеется несколько типов почв (1,2,3,...,n), для каждого типа применяется обработка(A-без обработки, B-обработка). Затем проводится оценка влияния обработки на каждый тип почвы по схеме:
1A vs 1B
2A vs 2B
3A vs 3B
...
nA vs nB
Является ли эта схема примером множественных сравнений и требуется ли коррекция p-значений?
Спасибо.
Отправить комментарий