Я ищу эффективный подход к извлечению фрагмента HTML с веб-страницы и выполнению некоторых конкретных операций с этим фрагментом HTML.
Требуются следующие операции:
Я использовал HTML Parser (org.htmlparser) для этой задачи и смог удовлетворить все требования, однако я не чувствую что у меня есть элегантное решение. В настоящее время я анализирую веб-страницу с помощью CssSelectorNodeFilter (чтобы получить фрагмент), а затем повторно анализирую этот фрагмент с помощью NodeVisitor для выполнения операций очистки.
Кто-нибудь может подсказать, как они будут решать эту проблему? Я бы предпочел проанализировать документ только один раз и выполнить все операции во время этого синтаксического анализа.
Заранее спасибо!