Оценка / хеш схожести строк

Есть ли метод для вычисления чего-то вроде общей «оценки схожести» строки? Таким образом, я не сравниваю две строки вместе, а скорее получаю некоторое число (хэш) для каждой строки, которое позже может сказать мне, что две строки похожи или не похожи. Две похожие строки должны иметь похожие (близкие) хэши.

Давайте рассмотрим эти строки и оценки в качестве примера:

Hello world                1000
Hello world!               1010
Hello earth                1125
Foo bar                    3250
FooBarbar                  3750
Foo Bar!                   3300
Foo world!                 2350

Вы можете видеть, что Hello world! и Hello world похожи, и их оценки близки друг к другу.

Таким образом, поиск строк, наиболее похожих на заданную строку, будет осуществляться путем вычитания данной строки из других оценок и затем сортировка их абсолютных значений.

46
задан Josef Sábl 1 December 2010 в 11:44
поделиться