Определение, является ли разница между двумя ошибочными значениями значительной

Я оцениваю много различных алгоритмов, задание которых состоит в том, чтобы предсказать вероятность появления события.

Я тестирую алгоритмы на наборах данных большого выхода. Я измеряю их эффективность с помощью "Среднеквадратической ошибки", которая является квадратным корнем ((сумма ошибок) в квадрате). Ошибка является различием между предсказанной вероятностью (значение с плавающей точкой между 0 и 1) и фактический результат (или 0.0 или 1.0).

Таким образом, я знаю RMSE и также количество образцов, на которых был протестирован алгоритм.

Проблема состоит в том, что иногда значения RMSE вполне друг близко к другу, и мне нужен способ определить, является ли различием между ними просто шанс, или если это представляет фактическую разницу в производительности.

Идеально, для данной пары значений RMSE, я хотел бы знать то, чем вероятность состоит в том, что каждый действительно лучше, чем другой, так, чтобы я мог использовать эту вероятность в качестве порога значения.

6
задан sanity 30 January 2010 в 18:21
поделиться

3 ответа

Вы входите в обширную и спорную область не только вычислений, но и философию. Значительные испытания и выбор модели являются предметами интенсивных разногласий между байесами и частотвыми. Комментарий Triston о разделении данных, установленного на наборах обучения и проверки, не будет радовать байеса.

Могу ли я предложить, что RMSE не является соответствующим баллом для вероятностей. Если образцы независимы, правильный балл является Сумма логарифмов вероятностей, присваиваемых фактическим результатам . (Если они не независимы, у вас есть беспорядок в руках.) То, что я описываю, это забивает «модуль» модели. Правильное моделирование байесов требует интеграции на параметры модели, которая является вычислительно очень сложной. Байесианский способ регулировать модуль плагина - добавить штраф на счет для маловероятных (больших) параметров модели. Это называется «распад веса».

Я начал начал на моем пути чтения открытия нейронных сетей для распознавания образцов Christopher епископ. Я использовал его и и практическую оптимизацию GILL, et al , чтобы написать программное обеспечение, которое очень хорошо сработало для меня.

4
ответ дан 8 December 2019 в 17:21
поделиться

MSE - это среднее и, следовательно, в центральной теореме пределов применяется. Поэтому тестирование того, являются ли два MSE, то же самое, такое же, как тестирование, равно ли два средства равны. Сложность по сравнению со стандартным тестом, сравнивающим два средства состоит в том, что ваши образцы коррелируют - оба приходят из тех же событий. Но разница в MSE такая же, как среднее значение различных квадратных ошибок (средства линейные). Это говорит о расчете T-теста T-Test следующим образом:

  1. для каждого x вычислить ошибку E для процедуры 1 и 2.
  2. Вычислить различия в квадратных ошибках (E2 ^ 2-E1 ^ 2) .
  3. вычислять среднее значение различий.
  4. Вычислить стандартное отклонение различий.
  5. вычислять T-статистику как среднее значение / (SD / SQRT (N)) .
  6. Сравните вашу T-статистику до критического значения или вычислить значение P. Например, отклоните равенство на уровне доверия к 5%, если | T |> 1.96 .

RMSE - это монотонное преобразование MSE, поэтому этот тест не должен давать существенно разные результаты. Но будьте осторожны, чтобы не предположить, что MRSE RMSE.

Более большая проблема должна быть преодолена. Обязательно вычислить всю свою статистику MSE, используя данные, которые вы не использовали для оценки вашей модели.

10
ответ дан 8 December 2019 в 17:21
поделиться

Я отвечаю здесь на вопросы в комментариях. Тема слишком большой, чтобы справиться в комментариях.

Версия утесов заметок.

Типы баллов, которые мы говорим о вероятностях измерения. (Подходит ли это для того, что вы делаете, это еще один вопрос.) Если вы предполагаете, что образцы независимы, вы получаете «общую» вероятность, просто умногая все вероятности вместе. Но это обычно приводит к абсолютному небольшим количеством, так что эквивалентно, вы добавляете логарифмы вероятностей. Чем больше, тем лучше. Ноль идеален.

Повсеместная ошибка, -x-squared, -x ^ 2, где x - ошибка модели, исходит из (часто неоправданного) предположения, что данные обучения включают наблюдения (измерения), поврежденные «гауссовым шумом». Если вы посмотрите в Wikipedia или что-то в определении распределения гауссовского (нормального) гаусса, вы обнаружите, что он содержит термин E ^ (- x ^ 2). Возьмите натуральный логарифм этого, и Voila!, -X ^ 2. Но ваши модели не дают наиболее вероятные значения «предварительно шум» для измерений. Они вызывают вероятности напрямую. Таким образом, что нужно сделать, это просто добавить логарифмы вероятностей, назначенных на наблюдаемые события. Эти наблюдения считаются без шума. Если учебные данные говорится, что это случилось, это произошло.

Ваш оригинальный вопрос остается без ответа. Как сказать, будут ли две модели «значительно»? Это расплывчатый и сложный вопрос. Это тема много дебатов и даже эмоций и злоб. Это также не на самом деле вопрос, который вы хотите ответить. То, что вы хотите знать, это какая модель дает вам наилучшую ожидаемую прибыль, все рассмотренные все, в том числе насколько каждый пакет программного пакета и т. Д.

Должно взломать это в ближайшее время. Это не место для курса по моделированию и вероятности, и я не очень квалифицирован как профессор.

0
ответ дан 8 December 2019 в 17:21
поделиться
Другие вопросы по тегам:

Похожие вопросы: