Как я использую ПОИ Apache для чтения.DOC файла в Java для разделения изображений от текста?

Из документации

Укажите каждый домен, который вы хотите открыть, в окне надстройки в списке доменов, указанном в элементе AppDomains файла манифеста. Если надстройка пытается перейти по URL-адресу в домене, который находится в списке, она открывается на панели задач как в настольном приложении Office, так и в Office Online. Если он пытается перейти по URL-адресу, которого нет в списке, то в настольном приложении Office этот URL-адрес открывается в новом окне браузера (за пределами панели надстроек).

blockquote>

В вашем случае, поскольку вы добавили домен в домены приложений, URL-адрес откроется в диалоговом окне надстройки, и удаление домена из домена приложения должно решить вашу проблему.

5
задан Wivani 20 September 2011 в 15:20
поделиться

2 ответа

Примеры и пример кода на сайте апача довольно хороши. Я рекомендую запустить там.

http://poi.apache.org/hwpf/quick-guide.html

Для получения определенных битов текста сначала создайте org.apache.poi.hwpf. HWPFDocument. Выберите диапазон с getRange (), затем получите абзацы от этого. Можно затем получить текст и другие свойства.

Здесь для примера извлечения изображения. Здесь для последнего пересмотра с этой записи.

И конечно, Javadoc

Обратите внимание что, согласно сайту ПОИ,

HWPF находится все еще в ранней разработке.

13
ответ дан 18 December 2019 в 13:19
поделиться

Это не свободно (или даже дешево!), но Aspose. Слова должны смочь сделать это. Их загрузка оценки позволит Вам играть с маленькими файлами.

Целевыми файлами должны также быть Документы? Вы могли открыть документы в Office и сохранить их как HTML. Затем разделение становится тривиальным. RTF является также жизнеспособным вариантом, но я не могу рекомендовать хороший синтаксический анализатор RTF первое, что пришло на ум.

Редактирование для высказывания: Я просто помнил другое возможное решение: Jacob, но Вам будет нужен экземпляр Office, работающего на той же машине. Это коротко для Java Мост COM, и это позволяет Вам выполнить вызовы к библиотекам COM в Office для управления документами. Я уверен, что это не столь страшно, как это могло бы звучать!

1
ответ дан 18 December 2019 в 13:19
поделиться
Другие вопросы по тегам:

Похожие вопросы: