Как извлечь текст без HTML-тэгов из использования веб-страницы HtmlUnit?

Я просто начинаю с HTMLUnit и что я надеюсь делать, взятие веб-страница и извлечение необработанный текст от него минус вся разметка HTML.

htmlunit может выполнить это? Если так, как? Или есть ли другая библиотека, на которую я должен смотреть?

например, если страница содержит

<body><p>para1 test info</p><div><p>more stuff here</p></div>

Я хотел бы, чтобы это произвело

para1 test info more stuff here

спасибо

5
задан Mosty Mostacho 9 October 2013 в 19:20
поделиться

1 ответ

http://htmlunit.sourceforge.net/gettingStarted.html указывает, что это действительно возможно.

@Test
public void homePage() throws Exception {
    final WebClient webClient = new WebClient();
    final HtmlPage page = webClient.getPage("http://htmlunit.sourceforge.net");
    assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());

    final String pageAsXml = page.asXml();
    assertTrue(pageAsXml.contains("<body class=\"composite\">"));

    final String pageAsText = page.asText();
    assertTrue(pageAsText.contains("Support for the HTTP and HTTPS protocols"));
}

NB: команда page.asText (), кажется, предлагает именно то, что вам нужно.

Документация Javadoc для asText (унаследована от DomNode на HtmlPage)

5
ответ дан 14 December 2019 в 18:55
поделиться
Другие вопросы по тегам:

Похожие вопросы: