, Что было бы оптимальным путем, с помощью Jsoup, для извлечения всего HTML (или к Последовательности, Документу или к Элементам) между двумя блоками, которые соответствуют этому образцу:
{any HTML could appear here, except for a pair}
...
{This is the HTML I need to extract.
any HTML could appear here, except for a pair}
...
{any HTML could appear here, except for a pair}
Используя regex это могло быть просто, если я применяю его на весь body.html ():
(.+)(.+)(.+)
^
+----- There I have my HTML content
, Но поскольку я извлек уроки из подобная проблема , производительность могла быть улучшена (даже если код немного более длинен), если я использую уже Jsoup-проанализированный DOM - за исключением того, что на этот раз никакой Element.nextSibling ()
, ни Element.nextElementSibling ()
может прийти на помощь.
я искал что-то как jQuery nextUntil в Jsoup, например, но не мог действительно найти что-то подобным.
это возможный придумать что-то лучше, чем вышеупомянутый находящийся в regex подход?