13 июля 2012

Протокол разведочного анализа данных: выявление взаимодействий между предикторами



В первом сообщении, посвященном разведочному анализу данных, я приводил пример точечной диаграммы Кливленда, построенной по данным о длине крыла воробьев (пример заимствован из статьи Zuur et al. 2010). Эти данные (доступны для скачивания здесь) включают также информацию о весе и половой принадлежности птиц, а также сведения о времени проведения измерений (месяцы, с мая по сентябрь). Один из возможных вопросов, который исследователь мог бы задать в отношении этих данных, звучит так: различаются ли сила и направление связи между длиной крыла и весом воробьев в зависимости от их пола и времени проведения измерений? Иными словами, имеется ли взаимодействие между предикторами длины крыла - весом, полом и временем года?

Обычным подходом для ответа на подобного рода вопросы является построение регрессионой модели, включающей взимодействие между предикторами. На языке R такая модель для данных о длине крыла воробьев могла бы выглядеть, например, следующим образом: length ~ weight + sex + month + weight:sex:month. Zuur et al. (2010) с своей статье сообщают, что взаимодействие между весом, полом и временем года оказалось статистически значимым. Однако, как отмечают авторы, к результатам этого анализа следует отнестись осторожно.

На рисунке ниже приведены категоризованные диаграммы рассеяния, отражающие связь между весом и длиной крыла птиц для каждого пола в каждом месяце. Для удобства интерпретации этой связи к каждой диаграмме добавлены регрессионные прямые. Такого рода графики являются отличным инструментом для выявления взаимодействий между анализируемыми предикторами (работу с категоризованными графиками в R я подробно описал в одном из предыдущих сообщений). Если бы все прямые на приведенных ниже диаграммах оказались параллельными, мы бы сделали вывод об отсутствии влияния пола воробьев и времени года на связь между длиной крыла и весом птиц. В нашем случае это не так, что, в принципе, подтверждает результаты регрессионного анализа. Загвоздка, однако, заключается в том, что для некоторых сочетаний "месяц/пол" мы имеем весьма незначительное число наблюдений (особенно в сентябре, когда данные для самцов не были получены вовсе). В связи с этим, как отмечают Zuur et al. (2010), имело бы смысл повторить анализ, использовав данные только за июнь-август - ответ о наличии взаимодействия между весом, полом и временем мог бы вполне оказаться другим.




Комментариев нет :

Отправить комментарий