Можно ли извлекать текст за страницей для файлов word / pdf с помощью Apache Tika?

Question

Можно ли извлекать текст за страницей для файлов word / pdf с помощью Apache Tika?

Вся документация, которую я могу найти, похоже, предполагает, что я могу извлечь только содержимое всего файла. Но мне нужно извлекать страницы по отдельности. Нужно ли мне для этого писать собственный парсер? Есть ли какой-то очевидный метод, который мне не хватает?

10

text apache-tika

задан Asif Sheikh 28 April 2011 в 20:53

0 ответов

Другие вопросы по тегам:

text apache-tika

Можно ли извлекать текст за страницей для файлов word / pdf с помощью Apache Tika?

0 ответов

Похожие вопросы: