Как мне получить первый элемент, который имеет внутренний текст (обычный текст, отбрасывая другие дочерние элементы) из 200 или более символов в длину?
Я пытаюсь создать анализатор HTML, например Embed.ly, и я настроил систему запасных вариантов, в которой я сначала проверяю og:description
, затем ищу это вхождение и только потом метатег description
. .
Это связано с тем, что большинство сайтов, которые даже включают метаописание
, описывают свой сайт в этом теге, а не в содержимом текущей страницы.
Пример:
some characters
200 characters some more stuff
Какой селектор я могу использовать, чтобы получить часть 200 символов этого фрагмента HTML? Мне тоже не нужны еще какие-то вещи, мне все равно, что это за элемент (кроме или
), если это первый обычный текст, содержащий не менее 200 символов.
Как должен выглядеть запрос XPath?