Я только что начал переделывать пестрый в сочетании с BeautifulSoup, и я задаюсь вопросом, пропускаю ли я что-то очень очевидное, но я, может казаться, не выясняю, как получить doctype возвращенного документа HTML от получающегося объекта супа.
Учитывая следующий HTML:
HTML5 Demos and Examples
This is paragraph one
This is paragraph two.
Кто-либо может сказать мне, если существует способ извлечь заявленный doctype из него использование BeautifulSoup?
Вы можете просто получить первый элемент в содержимом супа:
>>> soup.contents[0]
u'DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"'