наиболее эффективное расстояние редактирования для выявления опечаток в именах?

Алгоритмы расстояния редактирования дают меру расстояния между двумя строками.

Вопрос :, какая из этих мер будет наиболее уместна для обнаружения двух разных имен людей, которые на самом деле являются одними и теми же?(отличается из-за опечатки ). Хитрость в том, что он должен свести к минимуму ложные срабатывания. Пример:

Обаама Обама => вероятно, следует объединить

Обама Ибама => не следует объединять.

Это просто слишком простой пример. Их программисты и компьютерщики более детально прорабатывали этот вопрос?

6
задан hippietrail 12 August 2012 в 09:11
поделиться