Как извлечь простой текст из файла DOCX с помощью новой поддержки OOXML в ПОИ Apache 3.5?

Я чувствую, что фильтрация "На выбранном элементе и его детях" является лучшим режимом проблемного фильтра представления, потому что это позволяет, Вы к очень быстро сужаете объем проблем, о которых сообщают: нажмите на Working Set (в Проводнике пакетов), и это показывает все проблемы во всех проектах в наборе; нажмите на проект - и только проблемы в выбранном проекте появляются. Нажмите на отдельный класс (или пакет) - только проблемы в выбранном классе (или пакет) показывают. Таким образом, Вы не становитесь отвлекающимися с проблемами, не связанными с Вашей задачей под рукой.

13
задан Todd Main 19 July 2010 в 16:23
поделиться

2 ответа

This worked for me. Make sure you add the required jars (upgrade xmlbeans, etc.)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}
18
ответ дан 1 December 2019 в 21:53
поделиться

This is more generic

POITextExtractor poitex = ExtractorFactory.createExtractor(in);

return poitex.getText();

6
ответ дан 1 December 2019 в 21:53
поделиться
Другие вопросы по тегам:

Похожие вопросы: