Как Nokogiri обрабатывает теги и
при разборе HTML-документа? Предположим, у нас есть документ, который выглядит примерно так:
<div>
Hi <br>
How are you? <br>
</div>
Знает ли Nokogiri, что теги
являются чем-то особенным, а не просто обычными тегами XML, и игнорирует их при синтаксическом анализе фида узлов? Я думаю, что Nokogiri настолько умен, но я хочу убедиться, прежде чем соглашусь на этот проект, связанный с парсингом сайта, написанного на HTML4. Вы знаете, о чем я говорю (
Как дела?
не является содержанием первого
, как это было бы в XML).