Есть ли лучший подход для анализа недопустимого HTML, чем применение к нему Tidy?
Примечание: Бывают ситуации, когда Tidy недоступен. Regexp также не рекомендуется, я понял для анализа html.
Я бы попробовал что-то вроде этого: http://php.net/manual/en/domdocument.loadhtml.php
С этой страницы:
Функция анализирует HTML, содержащийся в источнике строки. . В отличие от загрузки XML, HTML не обязательно должен быть правильно сформирован для загрузки. Эта функция также может вызываться статически для загрузки и создания объекта DOMDocument.
Известно, что SimpleHTMLDOM более снисходительна, чем родные функции PHP DOM.