Веб-выскабливание Java

Я не могу найти любую хорошую сеть, очищающую основанный на Java API. Сайт, который я должен очистить, не обеспечивает API также; я хочу выполнить итерации по всем веб-страницам с помощью некоторых pageID и извлеките заголовки HTML / другой материал в их деревьях DOM.

Есть ли пути кроме веб-очистки?

71
задан 5377037 15 February 2019 в 08:25
поделиться

2 ответа

jsoup

Извлечь заголовок несложно , и у вас есть много вариантов, поищите здесь, в Stack Overflow, " Java HTML parsers ". Один из них - Jsoup .

Вы можете перемещаться по странице с помощью DOM, если знаете структуру страницы, см. http://jsoup.org/cookbook/extracting-data/dom-navigation

Это хорошая библиотека, и я использовал ее в своих последних проектах.

94
ответ дан 24 November 2019 в 13:00
поделиться

Посмотрите на парсер HTML, такой как TagSoup, HTMLCleaner или NekoHTML.

2
ответ дан 24 November 2019 в 13:00
поделиться
Другие вопросы по тегам:

Похожие вопросы: