Как выбрать пороговые значения T1 и T2 для кластеризации Canopy?

Я пытаюсь реализовать алгоритм кластеризации Canopy вместе с K-средними. Я провел несколько поисков в Интернете, в которых говорится, что нужно использовать кластеризацию Canopy, чтобы ваши начальные отправные точки вводились в K-средства, проблема в том, что в кластеризации Canopy вам нужно указать 2 пороговых значения для навеса: T1 и T2, где точки на внутреннем пороге сильно привязаны к этому куполу, а точки на более широком пороге менее привязаны к этому куполу. Как определяется этот порог или расстояние от центра купола?

Контекст проблемы:

Проблема, которую я пытаюсь решить, заключается в том, что у меня есть набор чисел, например [1,30] или [1,250] с размерами набора около 50. Могут быть повторяющиеся элементы, и они также могут быть числами с плавающей запятой, например 8, 17,5, 17,5, 23, 66, ... Я хочу найти оптимальные кластеры или подмножества набора номеров.

Итак, если кластеризация Canopy с использованием K-средних является хорошим выбором, тогда мои вопросы все еще остаются в силе: как найти значения T1, T2 ?. Если это не лучший выбор, можно ли использовать более простой, но эффективный алгоритм?

9
задан Anony-Mousse 15 January 2012 в 12:12
поделиться