Я ищу модуль HTML Parser для Python, который может помочь мне получить теги в виде списков/словарей/объектов Python.
Если у меня есть документ вида:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
тогда это должно дать мне способ доступа к вложенным тегам через имя или идентификатор тега HTML, чтобы я мог в основном попросить его получить мне содержимое/текст в теге div
с class='container'
, содержащимся в body
. ] тег или что-то подобное.
Если вы использовали функцию Firefox «Проверить элемент» (, просмотрите HTML ), вы должны знать, что она дает вам все теги в красивом вложенном виде, подобно дереву.
Я бы предпочел встроенный модуль -, но это может быть слишком много.
Я задал много вопросов о Stack Overflow и нескольких блогах в Интернете, и большинство из них предлагают BeautifulSoup, lxml или HTMLParser, но лишь немногие из них подробно описывают функциональность и просто заканчиваются спорами о том, какой из них быстрее/эффективнее.