Справка понимая перекрестную проверку и деревья решений

Я читал на Деревьях решений и Перекрестной проверке, и я понимаю оба понятия. Однако я испытываю затруднения при понимании Перекрестной проверки, поскольку это принадлежит Деревьям решений. Чрезвычайно Перекрестная проверка позволяет Вам чередоваться между обучением и тестированием, когда Ваш набор данных является относительно небольшим для максимизации оценки погрешности. Очень простой алгоритм проходит примерно так:

  1. Выберите количество сгибов, которые Вы хотите (k)
  2. Подразделите свой набор данных на сгибы k
  3. Используйте сгибы k-1 для обучающего множества для создания дерева.
  4. Используйте набор тестирования для оценки статистики об ошибке в дереве.
  5. Сохраните свои результаты на потом
  6. Повторите шаги 3-6 в течение k времен, не учтя другой сгиб для Вашего набора тестов.
  7. Насчитайте ошибки через свои повторения для предсказания полной ошибки

Проблема, которую я не могу выяснить, в конце, у Вас будут k Деревья решений, которые могли все немного отличаться, потому что они не могли бы разделить тот же путь и т.д. Какое дерево Вы выбираете? Одна идея, которую я имел, была выбором тот с минимальными ошибками (хотя это не делает это оптимальным просто, что это работало лучше всего на сгибе, который это было дано - возможно, использование стратификации поможет только все, что я считал, говорят, что это только помогает немногому).

Поскольку я понимаю перекрестную проверку, точка должна вычислить в статистике узла, которая может позже использоваться для сокращения. Таким образом, действительно каждому узлу в дереве вычислят статистику для него на основе набора тестов, данного ему. Что важно, они в статистике узла, но если Ваше усреднение Вашей ошибки. Как делают Вы объединяете эту статистику в каждом узле через k деревья, когда каждое дерево могло варьироваться по тому, что они принимают решение разделить на и т.д.

Какой смысл того, чтобы вычислить полную ошибку через каждое повторение? Это не что-то, что могло использоваться во время сокращения.

Любая справка с этой небольшой морщиной очень ценилась бы.

29
задан chubbsondubs 29 April 2012 в 20:37
поделиться

4 ответа

Проблема, которую я не могу понять, заключается в том, что в конце у вас будет k деревьев решений, которые все могут немного отличаться, потому что они могут не разделять одно и то же путь и т. д. Какое дерево вы выберете?

Цель перекрестной проверки не в том, чтобы помочь выбрать конкретный экземпляр классификатора (или дерева решений, или любого другого приложения для автоматического обучения), а скорее, чтобы квалифицировать модель , то есть предоставить такие показатели, как средний коэффициент ошибок, отклонение относительно этого среднего значения и т. д., которые могут быть полезны при утверждении уровня точности, который можно ожидать от приложения. Одна из вещей, которые перекрестная проверка может помочь в утверждении, - достаточно ли большие обучающие данные.

Что касается выбора конкретного дерева , вам следует вместо этого запустить еще одно обучение на 100% доступных обучающих данных, так как это обычно дает лучшее дерево. (Обратной стороной подхода перекрестной проверки является то, что нам нужно разделить [обычно небольшой] объем обучающих данных на «складки», и, как вы намекаете в вопросе, это может привести к деревьям, которые либо не соответствуют, либо не подходят для определенных экземпляров данных) .

В случае дерева решений я не уверен, к чему относится ваша ссылка на статистику, собранную в узле и используемую для сокращения дерева. Может быть, конкретное использование методов перекрестной проверки? ...

23
ответ дан 28 November 2019 в 01:59
поделиться

Перекрестная проверка не используется для построения / сокращения дерева решений. Он используется для оценки того, насколько хорошо дерево (построенное на всех данных) будет работать, моделируя поступление новых данных (путем построения дерева без некоторых элементов, как вы написали).На самом деле мне не имеет смысла выбирать одно из сгенерированных им деревьев, потому что модель ограничена данными, которые у вас есть (и не использовать все это на самом деле может быть хуже, если вы используете дерево для новых данных).
Дерево строится на основе выбранных вами данных (обычно всех). Сокращение обычно выполняется с использованием некоторой эвристики (т.е. 90% элементов в узле относятся к классу A, поэтому мы не идем дальше, или получение информации слишком мало).

1
ответ дан 28 November 2019 в 01:59
поделиться

В первой части, как и в других, мы обычно используем весь набор данных для построения окончательной модели, но мы используем крест -validation (CV), чтобы получить лучшую оценку ошибки обобщения для новых невидимых данных.

Что касается второй части, я думаю, вы путаете CV с набором проверки , используемым, чтобы избежать переобучения дерева путем сокращения узла, когда какое-то значение функции вычисляется на проверочном наборе не увеличивается до / после разделения.

5
ответ дан 28 November 2019 в 01:59
поделиться

Суть перекрестной проверки заключается в том, что она дает вам лучшую оценку производительности вашей обученной модели при использовании с разными данными.

Какое дерево вы выбираете? Один из вариантов - построить новое дерево, используя все свои данные для обучающего набора.

2
ответ дан 28 November 2019 в 01:59
поделиться
Другие вопросы по тегам:

Похожие вопросы: