Алгоритм индексации текста

Я пишу приложение winform на C # для системы архивирования. Система имеет огромную базу данных, в которой некоторые таблицы могут содержать более 1,5 миллиона записей. Мне нужен алгоритм, который индексирует содержимое этих записей. В основном это файлы Microsoft office, PDF и TXT. кто-нибудь может помочь? будь то идеи, ссылки, книги или коды, я ценю это :)

пример: если я ищу слово «международный» в определенной папке в базе данных, я получаю все файлы, содержащие это слово, упорядоченные по определенному такие критерии, как релевантность, дата изменения ... и т. д.

9
задан OJ. 23 December 2010 в 01:32
поделиться