Кто-нибудь пытался применить более гладкую метрику оценки перед применением L-метода для определения количества кластеров k-средних в наборе данных? Если да, улучшило ли это результаты? Или разрешить меньшее количество испытаний k-средних и, следовательно, гораздо большее увеличение скорости? Какой алгоритм / метод сглаживания вы использовали?
"L-метод" подробно описан в:
Пробовал ли кто-нибудь применить более гладкую метрику оценки перед применением L-метода для определения количества кластеров k-средних в наборе данных? Если да, улучшило ли это результаты? Или разрешить меньшее количество испытаний k-средних и, следовательно, гораздо большее увеличение скорости? Какой алгоритм / метод сглаживания вы использовали?
"L-метод" подробно описан в:
Пробовал ли кто-нибудь применить более гладкую метрику оценки перед применением L-метода для определения количества кластеров k-средних в наборе данных? Если да, улучшило ли это результаты? Или разрешить меньшее количество испытаний k-средних и, следовательно, гораздо большее увеличение скорости? Какой алгоритм / метод сглаживания вы использовали?
"L-метод" подробно описан в: Определение количества кластеров / сегментов в алгоритмах иерархической кластеризации / сегментации , Salvador & Chan
Это вычисляет метрику оценки для диапазона различных количеств пробных кластеров. Затем, чтобы найти излом (что происходит для оптимального количества кластеров), две линии подбираются с использованием линейной регрессии. Для улучшения подгонки колена применяется простой итерационный процесс - при этом используются существующие расчеты оценочной метрики и не требуется никаких повторных вычислений k-средних.
Для оценочной метрики я использую обратную величину упрощенной версии Индекса Данна. Упрощен для скорости (в основном мои вычисления диаметра и межкластерные упрощены). Обратное значение означает, что индекс работает в правильном направлении (т. Е. Чем ниже, тем лучше).
K-means - это стохастический алгоритм, поэтому обычно он запускается несколько раз и выбирается наиболее подходящий. Это работает очень хорошо, но когда вы делаете это для 1..N кластеров, время быстро увеличивается. Так что в моих интересах контролировать количество запусков. Общее время обработки может определить, практична моя реализация или нет - я могу отказаться от этой функции, если не смогу ее ускорить.