У меня есть куча PDF-файлов (несколько сотен). У них нет ни правильной структуры, ни конкретных полей. Все, что у них есть, - это много текста.
Что я пытаюсь сделать:
Проиндексируйте PDF-файлы и выполните поиск некоторых ключевых слов по индексу. Мне интересно узнать, есть ли это конкретное ключевое слово в PDF-документе, и если это так, мне нужна строка, в которой найдено ключевое слово. Если бы я искал «Google» в PDF-документе с этим термином, я бы хотел увидеть «Google - отличная поисковая система», что является строкой в PDF-документе.
Как я решил сделать:
Либо использовать SOLR, либо Whoosh, но SOLR выглядит хорошо для встроенной поддержки PDF. Я предпочитаю писать код на Python, а Sunburst - это оболочка для SOLR, которая мне нравится. Образец / пример проекта SOLR имеет некоторый файл схемы на основе сравнения цен. Теперь я не уверен, смогу ли я использовать SOLR для решения моей проблемы.
Что вы, ребята, предлагаете? Любой вклад приветствуется.