Python: Есть ли созданный в пакете для парсинга HTML в dom

Я нашел HTMLParser для саксофона и xml.minidom для xml. У меня есть вполне прилично сформированный HTML, таким образом, мне не нужен слишком сильный синтаксический анализатор - никакие предложения?

39
задан Guy 6 May 2010 в 15:06
поделиться

2 ответа

Посмотрите на BeautifulSoup. Он популярен и отлично разбирает HTML.

12
ответ дан 27 November 2019 в 02:44
поделиться

Я бы рекомендовал lxml. Мне нравится BeautifulSoup, но там есть проблемы с поддержкой в целом и проблемы совместимости с более поздними версиями. Я был счастлив, используя lxml.


Позже: лучшие рекомендации - использовать lxml, html5lib или BeautifulSoup 3.0.8. BeautifulSoup 3.1.x предназначен для python 3.x и, как известно, имеет проблемы с более ранними версиями python, как отмечено на сайте BeautifulSoup.

У Иэна Бикинга есть хорошая статья об использовании lxml.

ElementTree является дополнительной рекомендацией, но я никогда не использовал его.


2012-01-18: кто-то зашел и решил понизить голоса мне и Бартошу, потому что мы рекомендовали пакеты python, которые легко получить, но которые не входят в дистрибутив python. Итак, для очень буквальных StackOverflowers: "Вы можете использовать xml.dom.minidom, но никто не будет рекомендовать его вместо альтернатив"

.
26
ответ дан 27 November 2019 в 02:44
поделиться
Другие вопросы по тегам:

Похожие вопросы: