R случайная лесная важность переменной

Я пытаюсь использовать случайный лесной пакет для классификации в R.

Переменные перечисленные Меры по Важности:

  • имейте в виду необработанный счет важности переменной x для класса 0
  • имейте в виду необработанный счет важности переменной x для класса 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Теперь я знаю то, в чем они "означают" как, я знаю их определения. То, что я хочу знать, - то, как использовать их.

То, что я действительно хочу знать, - то, что эти значения означают только в контексте того, насколько точный они, что является хорошим значением, что является плохим значением, что является максимумами и минимумами и т.д.

Если переменная имеет верхний уровень MeanDecreaseAccuracy или MeanDecreaseGini это означает, что это важно или неважно? Также любая информация о необработанных очках могла быть полезной также. Я хочу знать, что все там должно знать об этих числах, который относится к приложению их.

Объяснение, которое использует слова 'ошибка', 'суммирование', или 'переставленный', было бы менее полезным затем более простое объяснение, которое не включило обсуждения того, как работают случайные леса.

Как то, если бы я хотел, чтобы кто-то объяснил мне, как использовать радио, то я не ожидал бы, что объяснение включит, как радио преобразовывает радиоволны в звук.

46
задан Andrie 28 August 2012 в 13:45
поделиться

3 ответа

Объяснение, использующее слова «ошибка», «суммирование» или «перестановка» будет менее полезным, чем простое объяснение, которое не включает обсуждение того, как работают случайные леса.

Например, если бы я хотел, чтобы кто-то объяснил мне, как пользоваться радио, я бы не стал ожидайте, что объяснение будет включать в себя то, как радио преобразует радиоволны в звук.

Как бы вы объяснили, что «значат» цифры в WKRP 100.5 FM, не вдаваясь в досадные технические детали частот волн? Откровенно говоря, параметры и связанные с этим проблемы производительности со случайными лесами трудно осознать, даже если вы понимаете некоторые технические термины.

Вот мой взгляд на некоторые ответы:

- средний показатель важности переменной x для класса 0

-значение сырого показателя важности переменной x для класса 1

Упрощение с веб-страницы случайного леса , грубый показатель важности показывает, насколько полезнее, чем случайный, конкретная переменная-предиктор в успешной классификации данных.

-MeanDecreaseAccuracy

Я думаю, что это только в модуле R , и я полагаю, что он измеряет, насколько включение этого предиктора в модель уменьшает ошибку классификации.

-MeanDecreaseGini

Джини определяется как «несправедливость», когда используется в описании распределения доходов общества, или мера "примеси узла" в древовидной классификации. Низкое значение Gini (т. Е. Более высокое уменьшение в Gini) означает, что конкретная переменная-предиктор играет большую роль в разбиении данных на определенные классы. Трудно описать, не говоря о том факте, что данные в деревьях классификации разделяются в отдельных узлах на основе значений предикторов. Мне не очень понятно, как это приводит к повышению производительности.

Трудно описать, не говоря о том, что данные в деревьях классификации разделяются на отдельные узлы на основе значений предикторов. Мне не очень понятно, как это приводит к повышению производительности.

Трудно описать, не говоря о том, что данные в деревьях классификации разделяются на отдельные узлы на основе значений предикторов. Мне не очень понятно, как это приводит к повышению производительности.

27
ответ дан 26 November 2019 в 20:38
поделиться

Для вашего непосредственного беспокойства: более высокие значения означают, что переменные более важны. Это должно быть верно для всех упомянутых вами мер.

Случайные леса дают вам довольно сложные модели, поэтому может быть сложно интерпретировать меры важности. Если вы хотите легко понять, что делают ваши переменные, не используйте RF. Вместо этого используйте линейные модели или (не ансамблевое) дерево решений.

Вы сказали:

Объяснение, в котором используются слова 'ошибка', 'суммирование' или 'перестановка' будет менее полезным, чем более простой объяснение, не связанное с обсуждение того, как случайные леса работает.

Будет ужасно сложно объяснить гораздо больше, чем указано выше, если вы не углубитесь и не узнаете, что насчет случайных лесов. Я полагаю, вы жалуетесь либо на руководство, либо на раздел из руководства Бреймана:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

Чтобы выяснить, как важна переменная, они заполняют ее случайным мусором ("переставляют"), а затем смотрят, насколько снижается точность прогнозов. Так работают MeanDecreaseAccuracy и MeanDecreaseGini. Я не уверен, каковы исходные оценки важности.

22
ответ дан 26 November 2019 в 20:38
поделиться

Интерпретация случайных лесов довольно сложна. Хотя RF - чрезвычайно надежный классификатор, он делает свои прогнозы демократически. Под этим я подразумеваю, что вы строите сотни или тысячи деревьев, беря случайное подмножество ваших переменных и случайное подмножество ваших данных, и строите дерево. Затем сделайте прогноз для всех невыбранных данных и сохраните прогноз. Он надежен, потому что он хорошо справляется с капризами вашего набора данных (т.е. он сглаживает случайные высокие / низкие значения, случайные графики / выборки, измеряет одно и то же 4 разными способами и т. Д.). Однако, если у вас есть некоторые сильно коррелированные переменные, обе могут показаться важными, поскольку они не всегда включаются в каждую модель.

Один из возможных подходов со случайными лесами может заключаться в том, чтобы сократить ваши предикторы, а затем переключиться на обычный CART или попробовать пакет PARTY для моделей деревьев на основе вывода. Однако тогда вы должны быть осторожны с проблемами интеллектуального анализа данных и делать выводы о параметрах.

6
ответ дан 26 November 2019 в 20:38
поделиться
Другие вопросы по тегам:

Похожие вопросы: