Алгоритмы расстояния редактирования дают меру расстояния между двумя строками.
Вопрос :, какая из этих мер будет наиболее уместна для обнаружения двух разных имен людей, которые на самом деле являются одними и теми же?(отличается из-за опечатки ). Хитрость в том, что он должен свести к минимуму ложные срабатывания. Пример:
Обаама Обама => вероятно, следует объединить
Обама Ибама => не следует объединять.
Это просто слишком простой пример. Их программисты и компьютерщики более детально прорабатывали этот вопрос?