Jsoup: Извлечь весь HTML между двумя блоками в CSS меньше HTML

Question

Jsoup: Извлечь весь HTML между двумя блоками в CSS меньше HTML

, Что было бы оптимальным путем, с помощью Jsoup, для извлечения всего HTML (или к Последовательности, Документу или к Элементам) между двумя блоками, которые соответствуют этому образцу:


 {any HTML could appear here, except for a  pair}


 ...
 {This is the HTML I need to extract. 
  any HTML could appear here, except for a  pair}
 ... 


 {any HTML could appear here, except for a  pair}

Используя regex это могло быть просто, если я применяю его на весь body.html ():

(.+)(.+)(.+)
                       ^
                       +----- There I have my HTML content

, Но поскольку я извлек уроки из подобная проблема , производительность могла быть улучшена (даже если код немного более длинен), если я использую уже Jsoup-проанализированный DOM - за исключением того, что на этот раз никакой Element.nextSibling () , ни Element.nextElementSibling () может прийти на помощь.

я искал что-то как jQuery nextUntil в Jsoup, например, но не мог действительно найти что-то подобным.

это возможный придумать что-то лучше, чем вышеупомянутый находящийся в regex подход?

7

java html-parsing jsoup

задан Community 23 May 2017 в 12:07
поделиться

0 ответов

Другие вопросы по тегам:
java html-parsing jsoup

Похожие вопросы:

100
Скрытые функции Java - 23 May 2017 02:26

73
[Закрываются] скрытые функции Eclipse - 6 May 2012 17:23

51
Почему это считают плохой практикой для исключения фигурных скобок? [закрытый] - 19 August 2016 17:07

48
Проверьте, верно ли хотя бы два из трех логических значений - 25 January 2013 22:30

47
Какова самая частая проблема параллелизма, с которой Вы встретились в Java? [закрытый] - 5 August 2012 12:49

41
Как я могу объединить два массива в Java? - 22 December 2018 15:35

41
Что возможно в IntelliJ, что невозможно в Eclipse? - 6 January 2012 05:17