Использование Nokogiri для разделения содержимого по тегам BR

У меня есть фрагмент кода, который я пытаюсь проанализировать с помощью nokogiri, который выглядит следующим образом:

<td class="j">
    <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br>
    <a title="title text2" href="http://link2.com">Link 2</a> (info1), Blah 1,<br>
    <a title="title text2" href="http://link3.com">Link 3</a> (info2), Blah 1 Foo 2,<br>
</td>

У меня есть доступ к источнику td.j, используя что-то вроде этого: data_items = doc.css ("td.j")

Моя цель - разбить каждую из этих строк на массив хешей. Единственная логическая точка разделения, которую я вижу, - это разделение на BR, а затем использование некоторого регулярного выражения в строке.

Мне было интересно, есть ли лучший способ сделать это, используя только нокогири? Даже если бы я мог использовать nokogiri для извлечения трех строк, это упростило бы мне задачу, так как я мог бы просто выполнить синтаксический анализ регулярных выражений для результата .content.

Не знаете, как использовать Nokogiri для захвата строк, заканчивающихся на br - следует ли мне использовать xpaths? приветствуется любое направление! спасибо

6
задан Mario Zigliotto 14 August 2011 в 18:50
поделиться