Jsoup: Извлечь весь HTML между двумя блоками в CSS меньше HTML

, Что было бы оптимальным путем, с помощью Jsoup, для извлечения всего HTML (или к Последовательности, Документу или к Элементам) между двумя блоками, которые соответствуют этому образцу:


 {any HTML could appear here, except for a  pair}


 ...
 {This is the HTML I need to extract. 
  any HTML could appear here, except for a  pair}
 ... 


 {any HTML could appear here, except for a  pair}

Используя regex это могло быть просто, если я применяю его на весь body.html ():

(.+)(.+)(.+)
                       ^
                       +----- There I have my HTML content

, Но поскольку я извлек уроки из подобная проблема , производительность могла быть улучшена (даже если код немного более длинен), если я использую уже Jsoup-проанализированный DOM - за исключением того, что на этот раз никакой Element.nextSibling () , ни Element.nextElementSibling () может прийти на помощь.

я искал что-то как jQuery nextUntil в Jsoup, например, но не мог действительно найти что-то подобным.

это возможный придумать что-то лучше, чем вышеупомянутый находящийся в regex подход?

7
задан Community 23 May 2017 в 12:07
поделиться