Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String.
У меня есть таблица, содержащая более 100 000 слов.
Я хочу обозначить одно и то же слово с некоторыми отличиями (например: дом, дом !!, hooouse, HoUse, @house, "дом" и т. Д ...
).
Что нужно, чтобы определить сходство и сгруппировать каждое слово в кластер? Какой алгоритм более рекомендуется для этого?