Мне интересно выполнять kmeans, кластеризирующийся в списке слов с мерой по расстоянию быть Leveshtein.
1) Я знаю, что существует много платформ там, включая scipy и оранжево, который имеет kmeans реализацию. Однако они все требуют своего рода вектора как данных, которые действительно не соответствуют мне.
2) Мне нужна хорошая реализация кластеризации. Я посмотрел на кластеризацию Python, и поймите, что она не a) возвращает сумму всего расстояния до каждого центроида и b) это не имеет никакого вида итеративного предела или убегать, который гарантирует качество кластеризации. кластеризация Python и кластеризирующийся алгоритм на daniweb действительно не работают на меня.
Кто-то может найти меня хорошим lib? Google не был моим другом
Не совсем ответ на ваш конкретный вопрос, но я рекомендую взглянуть на «Программирование коллективного разума» . В конце каждой главы, например, о кластеризации, дается описание всего лучшего чтения по этой теме.
Да, я думаю, что нет хорошей реализации того, что мне нужно.
У меня сумасшедшие требования, например, кэширование расстояний и т.д.
Так что я думаю, что просто напишу свою собственную библиотеку и скоро выпущу ее под GPLv3.