Индексация файлов PDF с использованием Symfony Lucene

Я - разработчик Symfony, и моим веб-сервером является Linux. Я уже использую sfLucene плагин.

Каков самый простой способ индексировать файлы PDF для поиска на сервере PHP Linux?

  1. XPDF, установленный как это
  2. Apache Tika через ответвление плагина SOLR sfLucene
  3. 3-я опция?

Спасибо!

5
задан Jon Winstanley 26 February 2010 в 14:13
поделиться

2 ответа

Исходя из опыта работы с Zend, я обычно рекомендую использовать Zend_Search_Lucene. Пример XPDF действительно прост и выглядит просто. XPDF под лицензией GPL - если это соответствует вашим потребностям, выбирайте №1!

ZF можно легко интегрировать в ваши проекты Symfony, например для звонка в Twitter .

3
ответ дан 14 December 2019 в 19:11
поделиться

Существует множество библиотек для извлечения текстового содержимого из PDF. С помощью любого из них вам необходимо создать документ lucene с содержимым. Самыми полезными будут те, в которых уже есть интеграция с Lucene.

Apache PDFBox может создать lucene документ непосредственно из файла PDF. Он будет включать поля метаданных PDF, а также текстовое содержимое.

2
ответ дан 14 December 2019 в 19:11
поделиться
Другие вопросы по тегам:

Похожие вопросы: