Есть ли метод для вычисления чего-то вроде общей «оценки схожести» строки? Таким образом, я не сравниваю две строки вместе, а скорее получаю некоторое число (хэш) для каждой строки, которое позже может сказать мне, что две строки похожи или не похожи. Две похожие строки должны иметь похожие (близкие) хэши.
Давайте рассмотрим эти строки и оценки в качестве примера:
Hello world 1000
Hello world! 1010
Hello earth 1125
Foo bar 3250
FooBarbar 3750
Foo Bar! 3300
Foo world! 2350
Вы можете видеть, что Hello world! и Hello world похожи, и их оценки близки друг к другу.
Таким образом, поиск строк, наиболее похожих на заданную строку, будет осуществляться путем вычитания данной строки из других оценок и затем сортировка их абсолютных значений.