Я нашел HTMLParser для саксофона и xml.minidom для xml. У меня есть вполне прилично сформированный HTML, таким образом, мне не нужен слишком сильный синтаксический анализатор - никакие предложения?
Посмотрите на BeautifulSoup. Он популярен и отлично разбирает HTML.
Я бы рекомендовал lxml. Мне нравится BeautifulSoup, но там есть проблемы с поддержкой в целом и проблемы совместимости с более поздними версиями. Я был счастлив, используя lxml.
Позже: лучшие рекомендации - использовать lxml, html5lib или BeautifulSoup 3.0.8. BeautifulSoup 3.1.x предназначен для python 3.x и, как известно, имеет проблемы с более ранними версиями python, как отмечено на сайте BeautifulSoup.
У Иэна Бикинга есть хорошая статья об использовании lxml.
ElementTree является дополнительной рекомендацией, но я никогда не использовал его.
2012-01-18: кто-то зашел и решил понизить голоса мне и Бартошу, потому что мы рекомендовали пакеты python, которые легко получить, но которые не входят в дистрибутив python. Итак, для очень буквальных StackOverflowers: "Вы можете использовать xml.dom.minidom, но никто не будет рекомендовать его вместо альтернатив"
.