Извлечь и очистить фрагмент HTML с помощью анализатора HTML (org.htmlparser)

Question

Извлечь и очистить фрагмент HTML с помощью анализатора HTML (org.htmlparser)

Я ищу эффективный подход к извлечению фрагмента HTML с веб-страницы и выполнению некоторых конкретных операций с этим фрагментом HTML.

Требуются следующие операции:

Удалить все теги с классом «скрытый»
Удалить все теги сценария
Удалить все теги стилей
Удалить все атрибуты событий (на * = "*" )
Удалить все атрибуты стиля

Я использовал HTML Parser (org.htmlparser) для этой задачи и смог удовлетворить все требования, однако я не чувствую что у меня есть элегантное решение. В настоящее время я анализирую веб-страницу с помощью CssSelectorNodeFilter (чтобы получить фрагмент), а затем повторно анализирую этот фрагмент с помощью NodeVisitor для выполнения операций очистки.

Кто-нибудь может подсказать, как они будут решать эту проблему? Я бы предпочел проанализировать документ только один раз и выполнить все операции во время этого синтаксического анализа.

Заранее спасибо!

6

java software-design html-parsing

задан Kieran Hall 2 December 2011 в 14:30

0 ответов

Другие вопросы по тегам:

java software-design html-parsing

Извлечь и очистить фрагмент HTML с помощью анализатора HTML (org.htmlparser)

0 ответов

Похожие вопросы: