Мог кто-то объяснять статистически наивный что различие между Multiple R-squared
и Adjusted R-squared
? Я делаю регрессионный анализ единственной варьируемой величины следующим образом:
v.lm <- lm(epm ~ n_days, data=v)
print(summary(v.lm))
Результаты:
Call:
lm(formula = epm ~ n_days, data = v)
Residuals:
Min 1Q Median 3Q Max
-693.59 -325.79 53.34 302.46 964.95
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2550.39 92.15 27.677 <2e-16 ***
n_days -13.12 5.39 -2.433 0.0216 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216
"Корректировка" в скорректированном R-квадрат связана с количеством переменных и количеством наблюдений.
Если вы продолжаете добавлять переменные (предикторы) в вашу модель, R-квадрат будет улучшаться - то есть предикторы будут объяснять дисперсию - но часть этого улучшения может быть обусловлена только случайностью. Поэтому скорректированный R-квадрат пытается исправить это, принимая во внимание отношение (N-1)/(N-k-1), где N = количество наблюдений и k = количество переменных (предикторов).
В вашем случае это, вероятно, не имеет значения, поскольку у вас одна переменная.
Некоторые ссылки:
Скорректированный R-квадрат близок к значению R2, но отличается от него. Вместо того чтобы основываться на объясненной сумме квадратов SSR и общей сумме квадратов SSY, он основывается на общей дисперсии (величине, которую мы обычно не вычисляем), s2T = SSY/(n - 1) и дисперсии ошибки MSE (из таблицы ANOVA) и рассчитывается следующим образом: скорректированный R-квадрат = (s2T - MSE) / s2T.
Этот подход обеспечивает лучшую основу для оценки улучшения подгонки в результате добавления объясняющей переменной, но он не имеет простой обобщающей интерпретации, которую имеет R2.
Если я не ошибся, вам следует проверить значения скорректированного R-квадрат и R-квадрат следующим образом:
s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
С другой стороны, R2 - это: SSR/SSY, где SSR = SSY - SSE
attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY
R-квадрат не зависит от количества переменных в модели. Скорректированный R-квадрат равен.
Скорректированный R-квадрат добавляет штраф за добавление переменных в модель, которые не коррелируют с переменной, которую вы пытаетесь объяснить. Вы можете использовать его, чтобы проверить, соответствует ли переменная тому, что вы пытаетесь объяснить.
Скорректированный R-квадрат - это R-квадрат с некоторыми добавленными делениями, чтобы сделать его зависимым от количества переменных в модели.