Как вычислить точность и полноту в кластеризации?

Я кое-что исследовал по этому поводу, я предполагаю, что вы хотите добавить выпадающий список без добавления дополнительных скриптов или плагинов, верно. Попробуйте решение по следующей ссылке

https://tailwindcomponents.com/component/dropdown-menu-without-js

Дайте мне знать, если это работает для вас.

7
задан user2314737 12 March 2016 в 13:30
поделиться

5 ответов

Я думаю, что Вы найдете, что Википедия имеет полезную статью о точности и полноте. Короче говоря:

Точность = истинные положительные стороны / (истинные положительные стороны + ложные положительные стороны)

Вспомните = истинные положительные стороны / (истинный positivies + ложные отрицательные стороны)

8
ответ дан 6 December 2019 в 08:45
поделиться

То, что я делаю из этой проблемы:

Один из наборов A и B является "положительным". Позволяет предполагают, что A положителен

Учитывая, что для элемента в кластере

  1. соответствие элементу B находится в том же кластере. это - истинное положительное
  2. соответствие элементу B не находится в том же кластере. это - ложное отрицание
  3. соответствие элементу B находится в том же кластере. положительная ложь
  4. соответствие элементу B не находится в том же кластере. истинное отрицание.

Затем просто используйте

Точность = истинные положительные стороны / (истинные положительные стороны + ложные положительные стороны)

Вспомните = истинные положительные стороны / (истинный positivies + ложные отрицательные стороны), как упомянуто кем-то

2
ответ дан 6 December 2019 в 08:45
поделиться

Я думаю, что существует проблема с Вашими определениями.

Точность и полнота подходит для проблемы классификации, которые являются в основном проблемами с двумя кластерами. Вы кластеризировались во что-то как "хорошие объекты" (=retrieved объекты) и "плохие объекты" (=non полученные объекты), затем Ваше определение имело бы смысл.

В Вашем случае Вы вычислили процент корректной кластеризации из всех объектов, которая является видом подобной точности, но не действительно, потому что, поскольку я сказал, что определения не применяются.

1
ответ дан 6 December 2019 в 08:45
поделиться

См. "Введение в Информационный поиск", глава 18 (кластеризация жира), для способов оценить кластеризирующиеся алгоритмы. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Этот раздел книги может также оказаться полезным, поскольку это обсуждает метрики, такие как точность и полнота: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

1
ответ дан 6 December 2019 в 08:45
поделиться

Существует несколько других показателей достоверности кластера, которые я использовал в некоторых исследованиях, которые я проводил при доступе к кластеризации. методы. В тех случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как упоминалось выше, или чистоту и энтропию.

Чистота кластера = количество вхождений наиболее часто встречающегося класса / размер кластера (это должно быть высоким)

Энтропия кластера = мера того, как рассеянные классы с кластером (это должно быть низким)

В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и внешнее сходство являются хорошими мерами.

Внутрикластерное сходство для одного кластера = среднее косинусное сходство всех пар в кластере (оно должно быть высоким)

Межкластерное сходство для одного кластера = среднее косинусное из всех элементов в одном кластере по сравнению с все элементы в любом другом кластере (это должно быть мало)

В этой статье есть некоторые хорошие описания всех четырех из этих мер. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Nice link with the unsupervised F-measure, I'm looking into that right now.

8
ответ дан 6 December 2019 в 08:45
поделиться
Другие вопросы по тегам:

Похожие вопросы: