У меня есть два списка имен для одной и той же группы студентов, которые были собраны отдельно. Имеется множество опечаток, и я использовал нечеткое соответствие, чтобы связать два списка. Я на 99 +% с соглашаемся
и подобными, но застрял на следующей основной проблеме: как я могу сопоставить (например) имена «Адриан Брюс» и «Брюс Адриан»? Расстояние редактирования Левенштейна не подходит для этого конкретного случая, поскольку оно учитывает количество замен.
Это должно быть очень распространенная проблема, но я не могу найти ни одного стандартного пакета R или подпрограммы для ее решения. Полагаю, мне не хватает чего-то очевидного ... ???