Кто-нибудь может мне объяснить, как действовать в следующем сценарии?
получение документов (MS docs, ODS, PDF)
Извлечение метаданных общего ядра с помощью Apache Tika + извлечение содержимого с помощью экстракторов содержимого jackrabbit
с использованием Jackrabbit для хранения документов (содержимого) в репозитории вместе с их метаданными ?
получение документов + метаданные
Я интересует пункты 3 и 4 ...
ПОДРОБНОСТИ: Приложение обрабатывает документы в интерактивном режиме (некоторый анализ - определение языка, подсчет слов и т. Д. + Сбор как можно большего количества деталей - дублинское ядро + анализ содержимого / обработки событий), чтобы оно возвращало результаты обработки пользователю, а затем извлеченный контент. и метаданные (извлеченные и настраиваемые пользовательские метаданные) сохраняются в репозитории JCR
Благодарю за любую помощь, спасибо