Лучшие практики для архива с возможностью поиска из тысяч документов (pdf и/или xml)

Пересмотр застопорившегося проекта и поиск совета по модернизации тысяч «старых» документов и размещению их в Интернете.

Документы существуют в различных форматах, некоторые из них устарели: (.doc, PageMaker, печатная копия (OCR), PDFи т. д.). Имеются средства для переноса документов в «современный» формат, и многие печатные копии уже были преобразованы в PDF-файлы с помощью оптического распознавания символов — изначально мы предполагали, что PDF будет окончательным форматом, но мы открыты для предложений (XML?) .

Когда все документы будут представлены в едином формате, мы хотели бы сделать их содержимое доступным и доступным для поиска через веб-интерфейс. Мы хотели бы иметь возможность возвращать только части (страницы?) всего документа, в которых найдено «попадание» (я полагаю, что Lucene/elasticsearch делает это возможным?!?) Может быть, было бы более гибко, если бы весь контент был XML? Если да, то как/где хранить XML? Непосредственно в базе данных или в виде отдельных файлов в файловой системе? Как насчет встроенных изображений/графиков в документы?

Любопытно, как другие могут подойти к этому. Нет «неправильного» ответа, я просто ищу как можно больше входных данных, которые помогут нам продолжить.

Спасибо за любой совет.

44
задан mt3 26 December 2012 в 15:11
поделиться