Как Nokogiri обрабатывает незакрытые HTML-теги, такие как
?

Как Nokogiri обрабатывает теги и при разборе HTML-документа? Предположим, у нас есть документ, который выглядит примерно так:

<div>
   Hi <br>
   How are you? <br>
</div>

Знает ли Nokogiri, что теги
являются чем-то особенным, а не просто обычными тегами XML, и игнорирует их при синтаксическом анализе фида узлов? Я думаю, что Nokogiri настолько умен, но я хочу убедиться, прежде чем соглашусь на этот проект, связанный с парсингом сайта, написанного на HTML4. Вы знаете, о чем я говорю ( Как дела? не является содержанием первого
, как это было бы в XML).

5
задан Phrogz 19 August 2011 в 15:00
поделиться