Я не могу найти любую хорошую сеть, очищающую основанный на Java API. Сайт, который я должен очистить, не обеспечивает API также; я хочу выполнить итерации по всем веб-страницам с помощью некоторых pageID
и извлеките заголовки HTML / другой материал в их деревьях DOM.
Есть ли пути кроме веб-очистки?
Извлечь заголовок несложно , и у вас есть много вариантов, поищите здесь, в Stack Overflow, " Java HTML parsers ". Один из них - Jsoup .
Вы можете перемещаться по странице с помощью DOM, если знаете структуру страницы, см. http://jsoup.org/cookbook/extracting-data/dom-navigation
Это хорошая библиотека, и я использовал ее в своих последних проектах.
Посмотрите на парсер HTML, такой как TagSoup, HTMLCleaner или NekoHTML.