Экранирование (много) коллинеарности в модели регрессии

Question

Экранирование (много) коллинеарности в модели регрессии

Я надеюсь, что этот не будет вопросом "спрашивать-и-отвечать"..., здесь идет: (много) коллинеарность относится к чрезвычайно высоким корреляциям между предикторами в модели регрессии. Как исправить их... хорошо, иногда Вы не должны "исправлять" коллинеарность, так как она не влияет на саму модель регрессии, но интерпретацию эффекта отдельных предикторов.

Один способ определить коллинеарность состоит в том, чтобы поместить каждый предиктор как зависимую переменную и другие предикторы как независимые переменные, определить ^R2, и если это больше, чем.9 (или.95), мы можем считать предиктор избыточным. Это - один "метод"... что относительно других подходов? Некоторые из них являются трудоемкими, как исключение предикторов из модели и наблюдения за b-содействующими изменениями - они должны заметно отличаться.

Конечно, мы должны всегда принимать во внимание определенный контекст/цель анализа... Иногда, только средство состоит в том, чтобы повторить исследование, но прямо сейчас, мне интересно различными способами экранировать избыточные предикторы, когда (много) коллинеарность происходит в модели регрессии.

63

r statistics regression

задан dbliss 31 December 2013 в 22:42

4 ответа

Чтобы добавить к тому, что Дирк сказал о методе числа условий, практическое правило состоит в том, что значения CN> 30 указывают на сильную коллинеарность . Другие методы, помимо числа условий, включают:

1) определитель ковариации матрица в диапазоне от 0 (Perfect Коллинеарность) до 1 (коллинеарность отсутствует)

# using Dirk's example
> det(cov(mm12[,-1]))
[1] 0.8856818
> det(cov(mm123[,-1]))
[1] 8.916092e-09

2) Использование того факта, что определитель диагональной матрицы является произведением собственных значений => Наличие одного или нескольких малых собственных значений указывает на коллинеарность

> eigen(cov(mm12[,-1]))$values
[1] 1.0876357 0.8143184

> eigen(cov(mm123[,-1]))$values
[1] 5.388022e+00 9.862794e-01 1.677819e-09

3) Значение матрицы Коэффициент инфляции дисперсии (VIF). VIF для предиктора i равен 1 / (1-R_i ^ 2), где R_i ^ 2 - это R ^ 2 из регрессии предиктора i против остальных предикторов. Коллинеарность присутствует, когда VIF хотя бы для одной независимой переменной велик. Полезное правило: VIF> 10 вызывает беспокойство . Для реализации на R см. здесь . Я также хотел бы прокомментировать, что использование R ^ 2 для определения коллинеарности должно идти рука об руку с визуальным исследованием диаграмм рассеяния, потому что отдельный выброс может «вызвать» коллинеарность там, где ее нет, или может СКРЫТЬ коллинеарность там, где она существует. .

34

ответ дан 24 November 2019 в 16:22

Вам может понравиться справочник Вито Риччи "Функции R для регрессионного анализа" http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf

В ней лаконично перечислены многие полезные функции R, связанные с регрессией, включая диагностические функции. В частности, там перечислена функция vif из пакета car, которая позволяет оценить мультиколлинеарность. http://en.wikipedia.org/wiki/Variance_inflation_factor

Рассмотрение мультиколлинеарности часто идет рука об руку с вопросами оценки важности переменных. Если это относится к вам, возможно, стоит обратить внимание на пакет relaimpo: http://prof.beuth-hochschule.de/groemping/relaimpo/

18

ответ дан 24 November 2019 в 16:22

См. Также раздел 9.4 в этой книге: Практическая регрессия и Anova с использованием R [Faraway 2002] .

Коллинеарность можно обнаружить несколькими способами:

Исследование корреляционной матрицы предикторов выявит большие попарные коллинеарности.
Регрессия x_i по всем остальным предикторам дает R ^ 2_i. Повторите для всех предикторов. R ^ 2_i, близкое к единице, указывает на проблему - может быть обнаружена неправильная линейная комбинация.
Изучите собственные значения t (X)% *% X , где X обозначает матрицу модели; Маленькие собственные значения указывают на проблему.Можно показать, что число обусловленности 2-нормы представляет собой отношение наибольшего ненулевого сингулярного значения матрицы к наименьшему ненулевому сингулярному значению матрицы ($ \ kappa = \ sqrt {\ lambda_1 / \ lambda_p} $; см. ? Kappa ); \ kappa> = 30 считается большим.

8

ответ дан 24 November 2019 в 16:22

Другие вопросы по тегам:

r statistics regression

Экранирование (много) коллинеарности в модели регрессии

4 ответа

Похожие вопросы: