Каково различие между Несколькими R-squared и Скорректированным R-squared в регрессии наименьших квадратов единственной варьируемой величины?

Question

Каково различие между Несколькими R-squared и Скорректированным R-squared в регрессии наименьших квадратов единственной варьируемой величины?

Мог кто-то объяснять статистически наивный что различие между Multiple R-squared и Adjusted R-squared ? Я делаю регрессионный анализ единственной варьируемой величины следующим образом:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

Результаты:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216

40

r statistics regression

задан TMS 14 October 2014 в 18:44

3 ответа

Скорректированный R-квадрат близок к значению R2, но отличается от него. Вместо того чтобы основываться на объясненной сумме квадратов SSR и общей сумме квадратов SSY, он основывается на общей дисперсии (величине, которую мы обычно не вычисляем), s2T = SSY/(n - 1) и дисперсии ошибки MSE (из таблицы ANOVA) и рассчитывается следующим образом: скорректированный R-квадрат = (s2T - MSE) / s2T.

Этот подход обеспечивает лучшую основу для оценки улучшения подгонки в результате добавления объясняющей переменной, но он не имеет простой обобщающей интерпретации, которую имеет R2.

Если я не ошибся, вам следует проверить значения скорректированного R-квадрат и R-квадрат следующим образом:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

С другой стороны, R2 - это: SSR/SSY, где SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY

8

ответ дан 27 November 2019 в 01:34

R-квадрат не зависит от количества переменных в модели. Скорректированный R-квадрат равен.

Скорректированный R-квадрат добавляет штраф за добавление переменных в модель, которые не коррелируют с переменной, которую вы пытаетесь объяснить. Вы можете использовать его, чтобы проверить, соответствует ли переменная тому, что вы пытаетесь объяснить.

Скорректированный R-квадрат - это R-квадрат с некоторыми добавленными делениями, чтобы сделать его зависимым от количества переменных в модели.

7

ответ дан 27 November 2019 в 01:34

Другие вопросы по тегам:

r statistics regression

Похожие вопросы:

score 60 · Accepted Answer

"Корректировка" в скорректированном R-квадрат связана с количеством переменных и количеством наблюдений.

Если вы продолжаете добавлять переменные (предикторы) в вашу модель, R-квадрат будет улучшаться - то есть предикторы будут объяснять дисперсию - но часть этого улучшения может быть обусловлена только случайностью. Поэтому скорректированный R-квадрат пытается исправить это, принимая во внимание отношение (N-1)/(N-k-1), где N = количество наблюдений и k = количество переменных (предикторов).

В вашем случае это, вероятно, не имеет значения, поскольку у вас одна переменная.

Некоторые ссылки: