Лучшая библиотека для нечеткого сопоставления документов / отпечатков текста

Я думаю о создании API это позволит программе представить «отпечаток пальца» академической публикации, сопоставить его с базой данных статей из журналов открытого доступа и, если он будет обнаружен, отправить пользователю каноническую информацию о цитировании.Первоначально это было бы для конкретной небольшой области исследования, поэтому для успеха не обязательно иметь дело с 20 миллионами статей (даже если бы были охвачены 1000 наиболее часто цитируемых статей в этой области, это было бы огромным благом для производительности. и сотрудничество).

Интересно, какая библиотека (которая в идеале может взаимодействовать с Ruby) лучше всего подходит для этого «снятия отпечатков пальцев». Я видел нечеткое соответствие Lucene, но, похоже, это работает на уровне слов, тогда как в этом случае мы, вероятно, захотим отправить гораздо большее подмножество документа. Причина нечеткого сопоставления заключается в том, что у некоторых людей может быть препринт Word.doc, у некоторых - окончательный PDF-файл и т. Д.

Я очень ценю некоторые идеи здесь. Поиск в Google "перцептивного хеша" открыл мне кучу нового материала. Я попытался обобщить многие из моих выводов здесь .

Похоже, что SimHash , например реализация C будет подходящим вариантом, но мне все еще нужно поэкспериментировать.

10
задан Stian Håklev 12 March 2012 в 20:12
поделиться