Как индексировать файлы PDF и искать по ключевым словам?

У меня есть куча PDF-файлов (несколько сотен). У них нет ни правильной структуры, ни конкретных полей. Все, что у них есть, - это много текста.

Что я пытаюсь сделать:

Проиндексируйте PDF-файлы и выполните поиск некоторых ключевых слов по индексу. Мне интересно узнать, есть ли это конкретное ключевое слово в PDF-документе, и если это так, мне нужна строка, в которой найдено ключевое слово. Если бы я искал «Google» в PDF-документе с этим термином, я бы хотел увидеть «Google - отличная поисковая система», что является строкой в ​​PDF-документе.

Как я решил сделать:

Либо использовать SOLR, либо Whoosh, но SOLR выглядит хорошо для встроенной поддержки PDF. Я предпочитаю писать код на Python, а Sunburst - это оболочка для SOLR, которая мне нравится. Образец / пример проекта SOLR имеет некоторый файл схемы на основе сравнения цен. Теперь я не уверен, смогу ли я использовать SOLR для решения моей проблемы.

Что вы, ребята, предлагаете? Любой вклад приветствуется.

8
задан ThinkCode 25 July 2011 в 22:00
поделиться