Как вычислить точность и полноту в кластеризации?

Question

Как вычислить точность и полноту в кластеризации?

Я кое-что исследовал по этому поводу, я предполагаю, что вы хотите добавить выпадающий список без добавления дополнительных скриптов или плагинов, верно. Попробуйте решение по следующей ссылке

https://tailwindcomponents.com/component/dropdown-menu-without-js

Дайте мне знать, если это работает для вас.

7

precision-recall cluster-analysis

задан user2314737 12 March 2016 в 13:30

5 ответов

То, что я делаю из этой проблемы:

Один из наборов A и B является "положительным". Позволяет предполагают, что A положителен

Учитывая, что для элемента в кластере

соответствие элементу B находится в том же кластере. это - истинное положительное
соответствие элементу B не находится в том же кластере. это - ложное отрицание
соответствие элементу B находится в том же кластере. положительная ложь
соответствие элементу B не находится в том же кластере. истинное отрицание.

Затем просто используйте

Точность = истинные положительные стороны / (истинные положительные стороны + ложные положительные стороны)

Вспомните = истинные положительные стороны / (истинный positivies + ложные отрицательные стороны), как упомянуто кем-то

2

ответ дан 6 December 2019 в 08:45

Я думаю, что существует проблема с Вашими определениями.

Точность и полнота подходит для проблемы классификации, которые являются в основном проблемами с двумя кластерами. Вы кластеризировались во что-то как "хорошие объекты" (=retrieved объекты) и "плохие объекты" (=non полученные объекты), затем Ваше определение имело бы смысл.

В Вашем случае Вы вычислили процент корректной кластеризации из всех объектов, которая является видом подобной точности, но не действительно, потому что, поскольку я сказал, что определения не применяются.

1

ответ дан 6 December 2019 в 08:45

См. "Введение в Информационный поиск", глава 18 (кластеризация жира), для способов оценить кластеризирующиеся алгоритмы. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Этот раздел книги может также оказаться полезным, поскольку это обсуждает метрики, такие как точность и полнота: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

1

ответ дан 6 December 2019 в 08:45

Существует несколько других показателей достоверности кластера, которые я использовал в некоторых исследованиях, которые я проводил при доступе к кластеризации. методы. В тех случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как упоминалось выше, или чистоту и энтропию.

Чистота кластера = количество вхождений наиболее часто встречающегося класса / размер кластера (это должно быть высоким)

Энтропия кластера = мера того, как рассеянные классы с кластером (это должно быть низким)

В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и внешнее сходство являются хорошими мерами.

Внутрикластерное сходство для одного кластера = среднее косинусное сходство всех пар в кластере (оно должно быть высоким)

Межкластерное сходство для одного кластера = среднее косинусное из всех элементов в одном кластере по сравнению с все элементы в любом другом кластере (это должно быть мало)

В этой статье есть некоторые хорошие описания всех четырех из этих мер. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Nice link with the unsupervised F-measure, I'm looking into that right now.

8

ответ дан 6 December 2019 в 08:45

Другие вопросы по тегам:

precision-recall cluster-analysis

Как вычислить точность и полноту в кластеризации?

5 ответов

Похожие вопросы: