Я - разработчик Symfony, и моим веб-сервером является Linux. Я уже использую sfLucene плагин.
Каков самый простой способ индексировать файлы PDF для поиска на сервере PHP Linux?
Спасибо!
Исходя из опыта работы с Zend, я обычно рекомендую использовать Zend_Search_Lucene. Пример XPDF действительно прост и выглядит просто. XPDF под лицензией GPL - если это соответствует вашим потребностям, выбирайте №1!
ZF можно легко интегрировать в ваши проекты Symfony, например для звонка в Twitter .
Существует множество библиотек для извлечения текстового содержимого из PDF. С помощью любого из них вам необходимо создать документ lucene с содержимым. Самыми полезными будут те, в которых уже есть интеграция с Lucene.
Apache PDFBox может создать lucene документ непосредственно из файла PDF. Он будет включать поля метаданных PDF, а также текстовое содержимое.