Разбор HTML с помощью Python

Я ищу модуль HTML Parser для Python, который может помочь мне получить теги в виде списков/словарей/объектов Python.

Если у меня есть документ вида:

<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>

тогда это должно дать мне способ доступа к вложенным тегам через имя или идентификатор тега HTML, чтобы я мог в основном попросить его получить мне содержимое/текст в теге divс class='container', содержащимся в body. ] тег или что-то подобное.

Если вы использовали функцию Firefox «Проверить элемент» (, просмотрите HTML ), вы должны знать, что она дает вам все теги в красивом вложенном виде, подобно дереву.

Я бы предпочел встроенный модуль -, но это может быть слишком много.


Я задал много вопросов о Stack Overflow и нескольких блогах в Интернете, и большинство из них предлагают BeautifulSoup, lxml или HTMLParser, но лишь немногие из них подробно описывают функциональность и просто заканчиваются спорами о том, какой из них быстрее/эффективнее.

166
задан the Tin Man 27 April 2016 в 23:55
поделиться