Как мы можем интерпретировать результат классификации в использовании weka наивного байесов?
Как является средним, отклонение станд., сумма веса и вычисленная точность?
Как статистическая величина каппы, средняя абсолютная погрешность, среднеквадратическая ошибка и т.д. вычислена?
Какова интерпретация матрицы беспорядка?
Ниже приведен пример вывода для наивного байесовского классификатора с использованием 10- свернуть перекрестную проверку. Там много информации, и то, на чем вам следует сосредоточиться, зависит от вашего приложения. Я объясню некоторые результаты ниже, чтобы вы начали.
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 71 71 %
Incorrectly Classified Instances 29 29 %
Kappa statistic 0.3108
Mean absolute error 0.3333
Root mean squared error 0.4662
Relative absolute error 69.9453 %
Root relative squared error 95.5466 %
Total Number of Instances 100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.967 0.692 0.686 0.967 0.803 0.709 0
0.308 0.033 0.857 0.308 0.453 0.708 1
Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709
=== Confusion Matrix ===
a b <-- classified as
59 2 | a = 0
27 12 | b = 1
Правильно и неправильно классифицированные экземпляры показывают процент тестовых экземпляров, которые были правильно и неправильно классифицированы. Необработанные числа показаны в матрице ошибок, где a
и b
представляют метки классов. Здесь было 100 экземпляров, поэтому проценты и исходные числа складываются, aa
+ bb
= 59 + 12 = 71, ab
+ ba
= 27 + 2 = 29.
Процент правильно классифицированных экземпляров часто называют точностью или точностью выборки. У него есть некоторые недостатки в качестве оценки производительности (не исправлено случайно, не чувствительно к распределению классов), поэтому вы, вероятно, захотите взглянуть на некоторые другие числа. Площадь ROC или площадь под кривой ROC - моя предпочтительная мера.
Каппа - это скорректированная на случайность мера соответствия между классификациями и истинными классами. Он рассчитывается путем удаления случайно ожидаемого соглашения от наблюдаемого и деления на максимально возможное согласие. Значение больше 0 означает, что ваш классификатор работает лучше, чем случайно (это действительно должно быть!).
Коэффициенты ошибок используются для числового предсказания, а не для классификации. В числовом прогнозировании прогнозы не просто правильные или неправильные, ошибка имеет величину, и эти меры отражают это.
Надеюсь, с этого вы начнете.