Использование сглаживания с методом L для определения количества кластеров K-средних

Кто-нибудь пытался применить более гладкую метрику оценки перед применением L-метода для определения количества кластеров k-средних в наборе данных? Если да, улучшило ли это результаты? Или разрешить меньшее количество испытаний k-средних и, следовательно, гораздо большее увеличение скорости? Какой алгоритм / метод сглаживания вы использовали?

"L-метод" подробно описан в:

Пробовал ли кто-нибудь применить более гладкую метрику оценки перед применением L-метода для определения количества кластеров k-средних в наборе данных? Если да, улучшило ли это результаты? Или разрешить меньшее количество испытаний k-средних и, следовательно, гораздо большее увеличение скорости? Какой алгоритм / метод сглаживания вы использовали?

"L-метод" подробно описан в:

Пробовал ли кто-нибудь применить более гладкую метрику оценки перед применением L-метода для определения количества кластеров k-средних в наборе данных? Если да, улучшило ли это результаты? Или разрешить меньшее количество испытаний k-средних и, следовательно, гораздо большее увеличение скорости? Какой алгоритм / метод сглаживания вы использовали?

"L-метод" подробно описан в: Определение количества кластеров / сегментов в алгоритмах иерархической кластеризации / сегментации , Salvador & Chan

Это вычисляет метрику оценки для диапазона различных количеств пробных кластеров. Затем, чтобы найти излом (что происходит для оптимального количества кластеров), две линии подбираются с использованием линейной регрессии. Для улучшения подгонки колена применяется простой итерационный процесс - при этом используются существующие расчеты оценочной метрики и не требуется никаких повторных вычислений k-средних.

Для оценочной метрики я использую обратную величину упрощенной версии Индекса Данна. Упрощен для скорости (в основном мои вычисления диаметра и межкластерные упрощены). Обратное значение означает, что индекс работает в правильном направлении (т. Е. Чем ниже, тем лучше).

K-means - это стохастический алгоритм, поэтому обычно он запускается несколько раз и выбирается наиболее подходящий. Это работает очень хорошо, но когда вы делаете это для 1..N кластеров, время быстро увеличивается. Так что в моих интересах контролировать количество запусков. Общее время обработки может определить, практична моя реализация или нет - я могу отказаться от этой функции, если не смогу ее ускорить.

16
задан Mat 7 February 2012 в 18:34
поделиться