Я ищу синтаксический анализатор, который позволит мне успешно анализировать испорченный xml, используя, например, подход «наилучшего предположения».
<thingy>
<description>
something <b>with</b> bogus<br>
markup not wrapped in CDATA
</description>
</thingy>
В идеале он будет получить объект штуковины со свойством description и любым тегом суп внутри.
Другие предложения по решению проблемы (кроме наличия действующей разметки для начала) приветствуются.
Не-php-решения (например, Beautiful Soup (python)) не выходят за рамки рамок, но я бы предпочел придерживаться преобладающего набора навыков в компании
Спасибо!