Я работаю, Solr 1.4 на Ubuntu 10.04 (установленный через Кв. - получают solr-кота), и это, кажется, хорошо работает. Я испытываю некоторые затруднения при нахождении любой когерентной информации о том, как индексировать документы все же. Я плохо знаком с SOLR, так терпите меня! У меня есть папка (/mnt/folder), который является смонтированной долей окон, которая содержит Word и файлы PDF, которые я хотел бы индексированный, что самый легкий путь состоит в том, чтобы заставить SOLR индексировать всю папку?
Документация для SOLR довольно плоха, ее невозможное для нахождения любых достойных учебных руководств при добивании цели с ним так, любая справка значительно ценится!
S
Я обнаружил те же проблемы с основной документацией, но я наткнулся на очень полезное справочное руководство от LucidImagination, которое помогло прояснить многое о SOLR:
http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide
Взгляните на Solr wiki , это довольно подробная документация.
В частности, см. ExtractingRequestHandler , который позволяет индексировать двоичные файлы, такие как документы Word и PDF. Вот введение в тему.
Если вам недостаточно вики, есть еще отличная книга о Сольре .