Являются там каким-либо Java синтаксические анализаторы HTML, где сгенерированные Узлы сохраняют индексы к оригинальному тексту?

я хотел бы запросить документ HTML как XML (например, с XPath), таким образом, я должен передать HTML через некоторую форму инструмента для очистки HTML.

, Но я также хотел бы сделать модификации к исходная исходная строка на основе результатов запросов.

там Java, синтаксический анализатор HTML вокруг этого сохраняет индексы к последовательности первоисточника, таким образом, я могу определить местоположение узла и изменить корректную часть исходной строки?

Аплодисменты.

10
задан Paul Grime 3 September 2011 в 23:12
поделиться