Веб-выскабливание Java

Question

Веб-выскабливание Java

Я не могу найти любую хорошую сеть, очищающую основанный на Java API. Сайт, который я должен очистить, не обеспечивает API также; я хочу выполнить итерации по всем веб-страницам с помощью некоторых pageID и извлеките заголовки HTML / другой материал в их деревьях DOM.

Есть ли пути кроме веб-очистки?

71

java web-scraping frameworks

задан 5377037 15 February 2019 в 08:25

2 ответа

Посмотрите на парсер HTML, такой как TagSoup, HTMLCleaner или NekoHTML.

2

ответ дан 24 November 2019 в 13:00

Другие вопросы по тегам:

java web-scraping frameworks

jsoup

Извлечь заголовок несложно , и у вас есть много вариантов, поищите здесь, в Stack Overflow, " Java HTML parsers ". Один из них - Jsoup .

Вы можете перемещаться по странице с помощью DOM, если знаете структуру страницы, см. http://jsoup.org/cookbook/extracting-data/dom-navigation

Это хорошая библиотека, и я использовал ее в своих последних проектах.

Веб-выскабливание Java

2 ответа

jsoup

Похожие вопросы: