У меня есть фрагмент кода, который я пытаюсь проанализировать с помощью nokogiri, который выглядит следующим образом:
<td class="j">
<a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br>
<a title="title text2" href="http://link2.com">Link 2</a> (info1), Blah 1,<br>
<a title="title text2" href="http://link3.com">Link 3</a> (info2), Blah 1 Foo 2,<br>
</td>
У меня есть доступ к источнику td.j, используя что-то вроде этого:
data_items = doc.css ("td.j")
Моя цель - разбить каждую из этих строк на массив хешей. Единственная логическая точка разделения, которую я вижу, - это разделение на BR, а затем использование некоторого регулярного выражения в строке.
Мне было интересно, есть ли лучший способ сделать это, используя только нокогири? Даже если бы я мог использовать nokogiri для извлечения трех строк, это упростило бы мне задачу, так как я мог бы просто выполнить синтаксический анализ регулярных выражений для результата .content.
Не знаете, как использовать Nokogiri для захвата строк, заканчивающихся на br - следует ли мне использовать xpaths? приветствуется любое направление! спасибо