R случайная лесная важность переменной

Question

R случайная лесная важность переменной

Я бы посоветовал предоставить вашему сценарию 5 еженедельных триггеров, а не один ежедневный, в качестве более чистого решения вашей проблемы.

(Еженедельно в понедельник) (Еженедельно во вторник) (Еженедельно в среду) (Еженедельно в четверг) (Еженедельно в пятницу)

46

r statistics data-mining random-forest

задан Andrie 28 August 2012 в 13:45

3 ответа

Для вашего непосредственного беспокойства: более высокие значения означают, что переменные более важны. Это должно быть верно для всех упомянутых вами мер.

Случайные леса дают вам довольно сложные модели, поэтому может быть сложно интерпретировать меры важности. Если вы хотите легко понять, что делают ваши переменные, не используйте RF. Вместо этого используйте линейные модели или (не ансамблевое) дерево решений.

Вы сказали:

Объяснение, в котором используются слова 'ошибка', 'суммирование' или 'перестановка' будет менее полезным, чем более простой объяснение, не связанное с обсуждение того, как случайные леса работает.

Будет ужасно сложно объяснить гораздо больше, чем указано выше, если вы не углубитесь и не узнаете, что насчет случайных лесов. Я полагаю, вы жалуетесь либо на руководство, либо на раздел из руководства Бреймана:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

Чтобы выяснить, как важна переменная, они заполняют ее случайным мусором ("переставляют"), а затем смотрят, насколько снижается точность прогнозов. Так работают MeanDecreaseAccuracy и MeanDecreaseGini. Я не уверен, каковы исходные оценки важности.

22

ответ дан 26 November 2019 в 20:38

Интерпретация случайных лесов довольно сложна. Хотя RF - чрезвычайно надежный классификатор, он делает свои прогнозы демократически. Под этим я подразумеваю, что вы строите сотни или тысячи деревьев, беря случайное подмножество ваших переменных и случайное подмножество ваших данных, и строите дерево. Затем сделайте прогноз для всех невыбранных данных и сохраните прогноз. Он надежен, потому что он хорошо справляется с капризами вашего набора данных (т.е. он сглаживает случайные высокие / низкие значения, случайные графики / выборки, измеряет одно и то же 4 разными способами и т. Д.). Однако, если у вас есть некоторые сильно коррелированные переменные, обе могут показаться важными, поскольку они не всегда включаются в каждую модель.

Один из возможных подходов со случайными лесами может заключаться в том, чтобы сократить ваши предикторы, а затем переключиться на обычный CART или попробовать пакет PARTY для моделей деревьев на основе вывода. Однако тогда вы должны быть осторожны с проблемами интеллектуального анализа данных и делать выводы о параметрах.

6

ответ дан 26 November 2019 в 20:38

Другие вопросы по тегам:

r statistics data-mining random-forest

Похожие вопросы:

score 27 · Accepted Answer

Объяснение, использующее слова «ошибка», «суммирование» или «перестановка» будет менее полезным, чем простое объяснение, которое не включает обсуждение того, как работают случайные леса.

Например, если бы я хотел, чтобы кто-то объяснил мне, как пользоваться радио, я бы не стал ожидайте, что объяснение будет включать в себя то, как радио преобразует радиоволны в звук.

Как бы вы объяснили, что «значат» цифры в WKRP 100.5 FM, не вдаваясь в досадные технические детали частот волн? Откровенно говоря, параметры и связанные с этим проблемы производительности со случайными лесами трудно осознать, даже если вы понимаете некоторые технические термины.

Вот мой взгляд на некоторые ответы:

- средний показатель важности переменной x для класса 0

-значение сырого показателя важности переменной x для класса 1

Упрощение с веб-страницы случайного леса , грубый показатель важности показывает, насколько полезнее, чем случайный, конкретная переменная-предиктор в успешной классификации данных.

-MeanDecreaseAccuracy

Я думаю, что это только в модуле R , и я полагаю, что он измеряет, насколько включение этого предиктора в модель уменьшает ошибку классификации.

-MeanDecreaseGini

Джини определяется как «несправедливость», когда используется в описании распределения доходов общества, или мера "примеси узла" в древовидной классификации. Низкое значение Gini (т. Е. Более высокое уменьшение в Gini) означает, что конкретная переменная-предиктор играет большую роль в разбиении данных на определенные классы. Трудно описать, не говоря о том факте, что данные в деревьях классификации разделяются в отдельных узлах на основе значений предикторов. Мне не очень понятно, как это приводит к повышению производительности.

Трудно описать, не говоря о том, что данные в деревьях классификации разделяются на отдельные узлы на основе значений предикторов. Мне не очень понятно, как это приводит к повышению производительности.