В сообщении "Каков возраст Вселенной?" был приведен пример построения простой линейной регрессии при помощи функции lm(). Полученная в том примере оценка коэффициента регрессии оказалась статистически значимой, что, казалось бы, указывает на высокое качество модели. Но так ли это? В данном сообщении будут рассмотрены количественные показатели, позволяющие ответить на этот вопрос.
F-критерий
В ходе построения модели, отражающей зависимость между расстоянием до 24 галактик и скоростью их удаления, были получены следующие результаты:
library(gamair) data(hubble) M <- lm(y ~ x - 1, data = hubble) summary(M) Call: lm(formula = y ~ x - 1, data = hubble) Residuals: Min 1Q Median 3Q Max -736.5 -132.5 -19.0 172.2 558.0 Coefficients: Estimate Std. Error t value Pr(>|t|) x 76.581 3.965 19.32 1.03e-15 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 258.9 on 23 degrees of freedom Multiple R-squared: 0.9419, Adjusted R-squared: 0.9394 F-statistic: 373.1 on 1 and 23 DF, p-value: 1.032e-15
\[F = \frac{(TSS-RSS)/p}{RSS/(n-p-1)},\]
где \(TSS=\sum (y_i-\bar{y})\) - т.н. общая сумма квадратов (англ. total sum of squares), \(RSS = \sum (y_i-\hat{y})\) - сумма квадратов остатков, \(p\) - число параметров модели (в нашем случае их два - коэффициент регрессии и стандартное отклонение остатков), а \(n\) - объем выборки. Приведенный ниже рисунок иллюстрирует, что собой представляют значения \(TSS\) и \(RSS\).
\[ H_0: \beta_1 = \beta_2 = \dots = \beta_p = 0 \]
В приведенном виде эта нулевая гипотеза соответствует случаю множественной регрессии (т.е. когда имеется несколько, p, предикторов). В рассматриваемом нами примере есть лишь один предиктор и, соответственно, при помощи F-критерия мы проверяем гипотезу об отсутствии связи между зависимой переменной и именно этим одним предиктором. F-критерий в этом примере составил 373.1, что гораздо больше 1. Вероятность получить такое высокое значение при отсутствии связи между x и y очень мала (P = 1.032e-15). Соответственно, мы можем заключить, что в целом полученная модель хорошо описывает имеющиеся данные.
Коэффициент детерминации
Во второй снизу строке результатов расчета модели приведены значения Multiple R-squared и Adjusted R-squared. В первом случае речь идет о т.н. коэффициенте детерминации, который обозначается как \(R^2\) и рассчитывается следующим образом:
\[R^2 = 1- \frac{RSS}{TSS}\]
Как было показано выше, TSS отражает общий разброс значений зависимой переменной до того, как мы пострили нашу регрессионную модель. В свою очередь, RSS отражает оставшуюся дисперсию значений зависимой переменной, которую нам не удалось "объяснить" при помощи модели. Соответственно, \(R^2\) измеряет долю общей дисперсии зависимой переменной, объясненную моделью. По определению, \(R^2\) изменяется от 0 до 1.
Чем ближе значение коэффициента детерминации к 1, тем точнее модель описывает данные. Эта интерпретация полностью применима для случая простой регрессии, когда модель включает лишь один предиктор (\(R^2\) будет представлять собой просто возведенный в квадрат коэффициент корреляции между y и x). Однако при включении в модель нескольких независимых переменных, с такой интерпретацией \(R^2\) следует быть очень осторожным. Дело в том, что значение \(R^2\) всегда будет возрастать при увеличении числа предикторов в модели, даже если некоторые из этих предикторов не имеют тесной связи с зависимой переменной. Соответственно, простой коэффициент детерминации будет отдавать предпочтение т.н. переобученным моделям, что крайне нежелательно. Выход заключается в использовании скорректированного коэффициента детерминации (англ. adjusted R-squared):
\[R_{adj.}^{2} = R^2 - (1 - R^2) \frac{p}{n - p - 1},\]
где \(R^2\) - исходный коэффициент детерминации, \(p\) - число параметров модели, а \(n\) - объем выборки. Как следует из приведенной формулы, поправка сводится к наложению "штрафа" на число параметров модели - чем больше параметров, тем больше этот "штраф" и, как результат, тем меньше значение скорректированного коэффициента детерминации.
Стандартное отклонение остатков
\[R^2 = 1- \frac{RSS}{TSS}\]
Как было показано выше, TSS отражает общий разброс значений зависимой переменной до того, как мы пострили нашу регрессионную модель. В свою очередь, RSS отражает оставшуюся дисперсию значений зависимой переменной, которую нам не удалось "объяснить" при помощи модели. Соответственно, \(R^2\) измеряет долю общей дисперсии зависимой переменной, объясненную моделью. По определению, \(R^2\) изменяется от 0 до 1.
Чем ближе значение коэффициента детерминации к 1, тем точнее модель описывает данные. Эта интерпретация полностью применима для случая простой регрессии, когда модель включает лишь один предиктор (\(R^2\) будет представлять собой просто возведенный в квадрат коэффициент корреляции между y и x). Однако при включении в модель нескольких независимых переменных, с такой интерпретацией \(R^2\) следует быть очень осторожным. Дело в том, что значение \(R^2\) всегда будет возрастать при увеличении числа предикторов в модели, даже если некоторые из этих предикторов не имеют тесной связи с зависимой переменной. Соответственно, простой коэффициент детерминации будет отдавать предпочтение т.н. переобученным моделям, что крайне нежелательно. Выход заключается в использовании скорректированного коэффициента детерминации (англ. adjusted R-squared):
\[R_{adj.}^{2} = R^2 - (1 - R^2) \frac{p}{n - p - 1},\]
где \(R^2\) - исходный коэффициент детерминации, \(p\) - число параметров модели, а \(n\) - объем выборки. Как следует из приведенной формулы, поправка сводится к наложению "штрафа" на число параметров модели - чем больше параметров, тем больше этот "штраф" и, как результат, тем меньше значение скорректированного коэффициента детерминации.
Стандартное отклонение остатков
В третьей снизу строке результатов регрессионного анализа представлено значение Residual standard error - стандартное отклонение остатков модели, которое в общем виде рассчитывается как
\[ RSE = \sqrt{\frac{1}{n - p - 1}RSS} \]
По определению, RSE отражает степень разброса наблюдаемых значений зависимой переменной по отношению к истинной линии регрессии. Так, в нашем примере, RSE = 258.9, из чего следует, что в среднем наблюдаемые значения скорости галактик отличаются от истинных значений на 258.9 км/сек. Очевидно, что чем меньше значение RSE, тем точнее модель описывает анализируемые данные.
Интересно, что RSE необязательно будет снижаться при увеличении числа предикторов в модели. Как следует из приведенной формулы, RSE может возрасти при добавлении в модель новых предикторов, если снижение RSS при этом будет относительно небольшим.
Заключение
Рассмотренные количественные показатели отражают разные аспекты "качества" регрессионной модели, и поэтому их стоит использовать в совокупности. Однако следует помнить, что сделанные на основе этих показателей выводы, будут верны только при условии соблюдения ряда допущений в отношении построенной модели. Проверке выполнения этих допущений будет посвящено соответствующее сообщение.
\[ RSE = \sqrt{\frac{1}{n - p - 1}RSS} \]
По определению, RSE отражает степень разброса наблюдаемых значений зависимой переменной по отношению к истинной линии регрессии. Так, в нашем примере, RSE = 258.9, из чего следует, что в среднем наблюдаемые значения скорости галактик отличаются от истинных значений на 258.9 км/сек. Очевидно, что чем меньше значение RSE, тем точнее модель описывает анализируемые данные.
Интересно, что RSE необязательно будет снижаться при увеличении числа предикторов в модели. Как следует из приведенной формулы, RSE может возрасти при добавлении в модель новых предикторов, если снижение RSS при этом будет относительно небольшим.
Заключение
Рассмотренные количественные показатели отражают разные аспекты "качества" регрессионной модели, и поэтому их стоит использовать в совокупности. Однако следует помнить, что сделанные на основе этих показателей выводы, будут верны только при условии соблюдения ряда допущений в отношении построенной модели. Проверке выполнения этих допущений будет посвящено соответствующее сообщение.
Отправить комментарий