кластеризация с косинусным сходством

У меня есть большой набор данных, который я хотел бы сгруппировать. Размер моего пробного набора составляет 2500 объектов; когда я запускаю его на «реальной сделке», мне нужно будет обрабатывать не менее 20 тыс. объектов.

Эти объекты имеют косинусное сходство между собой. Это сходство косинусов не удовлетворяет требованиям математической метрики расстояния; оно не удовлетворяет неравенству треугольника.

Я хотел бы сгруппировать их каким-то «естественным» способом, который объединяет похожие объекты без необходимости заранее указывать количество кластеров, которые я ожидаю.

Кто-нибудь знает алгоритм, который это сделает? На самом деле, я просто ищу любой алгоритм, который не требует )a метрики расстояния и b )предварительно -заданного количества кластеров.

Большое спасибо!

Этот вопрос уже задавали здесь: Кластеризация по значениям подобия косинусов (но это решение предлагает только K -означает кластеризацию ), а здесь: Эффективная кластеризация матрицы подобия (но это решение было довольно расплывчатым)

10
задан Community 23 May 2017 в 10:33
поделиться