Как работает кластеризация (особенно кластеризация строк)?

Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String.

У меня есть таблица, содержащая более 100 000 слов.

Я хочу обозначить одно и то же слово с некоторыми отличиями (например: дом, дом !!, hooouse, HoUse, @house, "дом" и т. Д ... ).

Что нужно, чтобы определить сходство и сгруппировать каждое слово в кластер? Какой алгоритм более рекомендуется для этого?

29
задан Wai Ha Lee 30 November 2015 в 15:51
поделиться