Какой метод Вы используете для выбора оптимального количества кластеров в k-средствах и EM?

Много алгоритмов для кластеризации доступны. Популярным алгоритмом являются K-средства, где на основе данного количества кластеров алгоритм выполняет итерации для нахождения лучших кластеров для объектов.

Какой метод Вы используете для определения количества кластеров в данных в кластеризации k-средств?

Делает любой пакет, доступный в R, содержат V-fold cross-validation метод для определения правильного количества кластеров?

Другой хорошо используемый подход является алгоритмом Максимизации ожидания (EM), который присваивает распределение вероятностей каждому экземпляру, который указывает на вероятность его принадлежащий каждому из кластеров.

Этот алгоритм реализован в R?

Если это, это имеет опцию автоматически выбрать оптимальное количество кластеров перекрестной проверкой?

Вы предпочитаете некоторый другой метод кластеризации вместо этого?

13
задан Alex Riley 26 September 2017 в 12:56
поделиться

1 ответ

Для больших "разреженных" наборов данных я бы серьезно рекомендовал метод "Affinity propagation". Он имеет лучшую производительность по сравнению с k-средними и является детерминированным по своей природе.

http://www.psi.toronto.edu/affinitypropagation/ Он был опубликован в журнале "Science".

Однако выбор оптимального алгоритма кластеризации зависит от рассматриваемого набора данных. K Means - это текстовый метод, и вполне вероятно, что кто-то разработал лучший алгоритм, более подходящий для вашего типа набора данных/

Вот хорошее учебное пособие профессора Эндрю Мура (CMU, Google) по K Means и иерархической кластеризации. http://www.autonlab.org/tutorials/kmeans.html

5
ответ дан 2 December 2019 в 02:05
поделиться
Другие вопросы по тегам:

Похожие вопросы: