18 мая 2014

Линейная регрессия: насколько хорошо построенная модель описывает данные?



В сообщении "Каков возраст Вселенной?" был приведен пример построения простой линейной регрессии при помощи функции lm(). Полученная в том примере оценка коэффициента регрессии оказалась статистически значимой, что, казалось бы, указывает на высокое качество модели. Но так ли это? В данном сообщении будут рассмотрены количественные показатели, позволяющие ответить на этот вопрос.




F-критерий

В ходе построения модели, отражающей зависимость между расстоянием до 24 галактик и скоростью их удаления, были получены следующие результаты:

library(gamair)
data(hubble)
 
M <- lm(y ~ x - 1, data = hubble)
 
summary(M)
 
Call:
lm(formula = y ~ x - 1, data = hubble)
 
Residuals:
   Min     1Q Median     3Q    Max 
-736.5 -132.5  -19.0  172.2  558.0 
 
Coefficients:
  Estimate Std. Error t value Pr(>|t|)    
x   76.581      3.965   19.32 1.03e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
Residual standard error: 258.9 on 23 degrees of freedom
Multiple R-squared:  0.9419, Adjusted R-squared:  0.9394 
F-statistic: 373.1 on 1 and 23 DF,  p-value: 1.032e-15


В последней строке приведенных результатов мы видим значение F-критерия и соответствующее ему Р-значение. Ранее F-критерий был описан в контексте дисперсионного анализа. Что же он делает здесь - в регрессионном анализе? Дело в том, что и дисперсионный анализ, и линейная регрессия с математической точки зрения очень похожи - они являются частными случаями класса "общих линейных моделей" (см. соответствующее обсуждение этой темы в приложении к дисперсионному анализу здесь и здесь). В случае с дисперсионным анализом, мы использовали F-критерий для сравнения меж- и внутригрупповой дисперсий. В случае с регрессионными моделями F-критерий также используется для сравнения дисперсий и рассчитывается следующим образом:

\[F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)},\]

где \(TSS=\sum (y_i-\bar{y})\) - т.н. общая сумма квадратов (англ. total sum of squares), \(RSS = \sum (y_i-\hat{y})\) - сумма квадратов остатков, \(p\) - число параметров модели (в нашем случае их два - коэффициент регрессии и стандартное отклонение остатков), а \(n\) - объем выборки. Приведенный ниже рисунок иллюстрирует, что собой представляют значения \(TSS\) и \(RSS\).

Геометрическая интерпретация понятий "общая сумма квадратов" (TSS) и "сумма квадратов остатков" (RSS). Слева: Предположим, что мы не строим никакой модели и пытаемся предсказать зависимую переменную y, просто рассчитав ее среднее значение. Вертикальные отрезки отражают расстояние от каждого выборочного наблюдения y до этого среднего значения (представлено в виде синей горизонтальной линии). При расчете TSS все эти расстояния возводятся в квадрат и суммируются. Справа: вертикальные отрезки отражают расстояние от каждого выборочного значения зависимой переменной y до значения, предсказанного регрессионной моделью (\(\hat{y}\)). При расчете RSS все эти расстояния возводятся в квадрат и суммируются.

Из приведенной формулы следует, что чем меньше значение RSS (т.е., чем ближе регрессионная линия ко всем наблюдениям одновременно), тем больше значение F-критерия будет отличаться от 1. Иными словами, большие значения F будут указывать на то, что построенная регрессионная модель в целом хорошо описывает данные. Другими словами, рассчитывая F-критерий, мы проверяем нулевую гипотезу о равенстве всех регрессионных коэффициентов построенной модели нулю:

\[ H_0: \beta_1 = \beta_2 = \dots = \beta_p = 0 \]

В приведенном виде эта нулевая гипотеза соответствует случаю множественной регрессии (т.е. когда имеется несколько, p, предикторов). В рассматриваемом нами примере есть лишь один предиктор и, соответственно, при помощи F-критерия мы проверяем гипотезу об отсутствии связи между зависимой переменной и именно этим одним предиктором. F-критерий в этом примере составил 373.1, что гораздо больше 1. Вероятность получить такое высокое значение при отсутствии связи между x и y очень мала (P = 1.032e-15). Соответственно, мы можем заключить, что в целом полученная модель хорошо описывает имеющиеся данные.


Коэффициент детерминации

Во второй снизу строке результатов расчета модели приведены значения Multiple R-squared и Adjusted R-squared. В первом случае речь идет о т.н. коэффициенте детерминации, который обозначается как \(R^2\) и рассчитывается следующим образом:

\[R^2 = 1- \frac{RSS}{TSS}\]

Как было показано выше, TSS отражает общий разброс значений зависимой переменной до того, как мы пострили нашу регрессионную модель. В свою очередь, RSS отражает оставшуюся дисперсию значений зависимой переменной, которую нам не удалось "объяснить" при помощи модели. Соответственно, \(R^2\) измеряет долю общей дисперсии зависимой переменной, объясненную моделью. По определению, \(R^2\) изменяется от 0 до 1.

Чем ближе значение коэффициента детерминации к 1, тем точнее модель описывает данные. Эта интерпретация полностью применима для случая простой регрессии, когда модель включает лишь один предиктор (\(R^2\) будет представлять собой просто возведенный в квадрат коэффициент корреляции между y и x). Однако при включении в модель нескольких независимых переменных, с такой интерпретацией \(R^2\) следует быть очень осторожным. Дело в том, что значение \(R^2\) всегда будет возрастать при увеличении числа предикторов в модели, даже если некоторые из этих предикторов не имеют тесной связи с зависимой переменной. Соответственно, простой коэффициент детерминации будет отдавать предпочтение т.н. переобученным моделям, что крайне нежелательно. Выход заключается в использовании скорректированного коэффициента детерминации (англ. adjusted R-squared):

\[R_{adj.}^{2} = R^2 - (1 - R^2) \frac{p}{n - p - 1},\]

где \(R^2\) - исходный коэффициент детерминации, \(p\) - число параметров модели, а \(n\) - объем выборки. Как следует из приведенной формулы, поправка сводится к наложению "штрафа" на число параметров модели - чем больше параметров, тем больше этот "штраф" и, как результат, тем меньше значение скорректированного коэффициента детерминации.


Стандартное отклонение остатков

В третьей снизу строке результатов регрессионного анализа представлено значение Residual standard error - стандартное отклонение остатков модели, которое в общем виде рассчитывается как

\[ RSE = \sqrt{\frac{1}{n - p - 1}RSS} \]

По определению, RSE отражает степень разброса наблюдаемых значений зависимой переменной по отношению к истинной линии регрессии. Так,  в нашем примере, RSE = 258.9, из чего следует, что в среднем наблюдаемые значения скорости галактик отличаются от истинных значений на 258.9 км/сек. Очевидно, что чем меньше значение RSE, тем точнее модель описывает анализируемые данные.

Интересно, что RSE необязательно будет снижаться при увеличении числа предикторов в модели. Как следует из приведенной формулы, RSE может возрасти при добавлении в модель новых предикторов, если снижение RSS при этом будет относительно небольшим.


Заключение

Рассмотренные количественные показатели отражают разные аспекты "качества" регрессионной модели, и поэтому их стоит использовать в совокупности.  Однако следует помнить, что сделанные на основе этих показателей выводы, будут верны только при условии соблюдения ряда допущений в отношении построенной модели. Проверке выполнения этих допущений будет посвящено соответствующее сообщение.


1 комментарий :

Unknown комментирует...

Здравствуйте! Для своего исследования пытаюсь разобраться с пороговой регрессией. Скажите, пожалуйста, планируется ли разбор данного вида регрессии?

Отправить комментарий