Как мне искать "text", а затем обходить DOM от найденного узла?

У меня есть веб-страница, с которой мне нужно соскоблить некоторые данные. Проблема в том, что на каждой странице могут быть или не быть определенные данные, или она может иметь дополнительные данные выше или ниже в DOM, и нет никаких CSS id, чтобы говорить об этом.

Обычно я могу использовать либо CSS-идентификаторы, либо XPath, чтобы добраться до нужного мне узла. В данном случае у меня нет такой возможности. Я пытаюсь найти текст "label", а затем взять данные в следующем узле:

<tr> 
    <td><b>Name:</b></td> 
    <td>Joe Smith <small><a href="/Joe"><img src="/joe.png"></a></small></td> 
</tr>

В приведенном выше HTML я бы искал:

doc.search("[text()*='Name:']")

чтобы получить узел непосредственно перед нужными мне данными, но я не уверен, как перейти оттуда.

16
задан lulalala 29 July 2013 в 07:38
поделиться