Можете ли вы привести некоторые примеры того, почему трудно анализировать XML и HTML с помощью регулярных выражений? [закрыто]

Question

Можете ли вы привести некоторые примеры того, почему трудно анализировать XML и HTML с помощью регулярных выражений? [закрыто]

Всякий раз, когда у меня были такие странные проблемы, я обычно сажусь с помощью инструмента, например WireShark , и просматриваю необработанные данные, передаваемые туда и обратно. Вы можете быть удивлены, когда что-то отключается, и вы только уведомлены при попытке прочитать.

393

regex xml html

задан Community 23 May 2017 в 12:26

7 ответов

На самом деле

<img src="imgtag.gif" alt="<img>" />

не допустимый HTML и не допустимый XML также.

Это не допустимый XML, потому что' <' и'>' не допустимые символы в строках атрибута. Их нужно оставить с помощью соответствующих объектов XML < и >

Это не допустимый HTML также, потому что короткая заключительная форма не позволяется в HTML (но корректно в XML и XHTML). Тег 'img' является также неявно закрытым тегом согласно спецификации HTML 4.01. Это означает, что вручную закрытие его является на самом деле неправильным, и является эквивалентным закрытию любого другого тега дважды.

Правильная версия в HTML

<img src="imgtag.gif" alt="&lt;img&gt;">

и правильная версия в XHTML и XML

<img src="imgtag.gif" alt="&lt;img&gt;"/>

Следующий пример, который Вы дали, также недопустим

<
tag
attr="5"
/>

Это не допустимый HTML или XML также. Название тега должно быть правильным позади' <', хотя атрибуты и закрытие'>' могут быть то, везде, где они хотят. Таким образом, допустимый XML на самом деле

<tag
attr="5"
/>

И вот является другой более броским: можно на самом деле принять решение использовать или "или 'в качестве символа заключения в кавычки атрибута

<img src="image.gif" alt='This is single quoted AND valid!'>

Все другие причины, которые были отправлены, корректны, но самая большая проблема с парсингом HTML состоит в том, что люди обычно не понимают всех синтаксических правил правильно. То, что Ваш браузер интерпретирует Ваш tagsoup как HTML, не делает средств, что Вы на самом деле записали допустимый HTML.

Править: И даже stackoverflow.com соглашается со мной относительно определения допустимых и недопустимых. Ваш недопустимый XML/HTML не выделяется, в то время как моя исправленная версия.

В основном XML не сделан быть проанализированным с regexps. Но нет также никакой причины сделать так. Существуют многие, много синтаксических анализаторов XML для каждого языка. У Вас есть выбор между синтаксическими анализаторами SAX, синтаксическими анализаторами DOM и синтаксическими анализаторами Получения по запросу. Все они, как гарантируют, будут намного быстрее, чем парсинг с regexp, и можно затем использовать прохладные технологии как XPath или XSLT на получающемся дереве DOM.

Мой ответ поэтому: не только анализирует XML с regexps трудно, но и это - также плохая идея. Просто используйте один из миллионов существующих синтаксических анализаторов XML и используйте в своих интересах все расширенные функции XML.

HTML просто слишком трудно даже попытаться анализировать самостоятельно. Сначала легальный синтаксис имеет много небольшой тонкости, о которой Вы не можете знать, и во-вторых, HTML в дикой природе является просто огромной зловонной грудой (Вы получаете мой дрейф). Существует множество слабых библиотек синтаксического анализатора, которые делают хорошее задание при обработке HTML как суп тега, просто используют их.

70