Много алгоритмов для кластеризации доступны. Популярным алгоритмом являются K-средства, где на основе данного количества кластеров алгоритм выполняет итерации для нахождения лучших кластеров для объектов.
Какой метод Вы используете для определения количества кластеров в данных в кластеризации k-средств?
Делает любой пакет, доступный в R, содержат V-fold cross-validation
метод для определения правильного количества кластеров?
Другой хорошо используемый подход является алгоритмом Максимизации ожидания (EM), который присваивает распределение вероятностей каждому экземпляру, который указывает на вероятность его принадлежащий каждому из кластеров.
Этот алгоритм реализован в R?
Если это, это имеет опцию автоматически выбрать оптимальное количество кластеров перекрестной проверкой?
Вы предпочитаете некоторый другой метод кластеризации вместо этого?
Для больших "разреженных" наборов данных я бы серьезно рекомендовал метод "Affinity propagation". Он имеет лучшую производительность по сравнению с k-средними и является детерминированным по своей природе.
http://www.psi.toronto.edu/affinitypropagation/ Он был опубликован в журнале "Science".
Однако выбор оптимального алгоритма кластеризации зависит от рассматриваемого набора данных. K Means - это текстовый метод, и вполне вероятно, что кто-то разработал лучший алгоритм, более подходящий для вашего типа набора данных/
Вот хорошее учебное пособие профессора Эндрю Мура (CMU, Google) по K Means и иерархической кластеризации. http://www.autonlab.org/tutorials/kmeans.html