PEP-8 является официальным стандартом кодирования питона. Он содержит раздел о docstrings, который ссылается на PEP-257 - полную спецификацию для docstrings.
HTMLParser имеет функциональность в стандартной библиотеке. Это, к сожалению, не документировано:
>>> import HTMLParser
>>> h= HTMLParser.HTMLParser()
>>> h.unescape('alpha < β')
u'alpha < \u03b2'
>>> import html.parser
>>> h = html.parser.HTMLParser()
>>> h.unescape('alpha < β')
'alpha < \u03b2'
htmlentitydefs документируется, но требует, чтобы Вы сделали большую работу сами.
, Если Вам только нужен XML, предопределил объекты (лейтенант, gt, усилитель, кавычка, apos), Вы могли использовать minidom для парсинга их. Если Вам только нужны предопределенные объекты и никакие ссылки цифрового символа, Вы могли бы даже просто использовать простую строковую замену для скорости.
Нет ничего встроенного в Python stdlib для невыхода из HTML, но существует короткий сценарий, который можно адаптировать в соответствии с потребностями в http://www.w3.org/QA/2008/04/unescape-html-entities-python .html.
Используйте модуль htmlentitydefs . Этот мой старый код, это работало, но я уверен, что там является более чистым и больше pythonic способа сделать это:
e2c = dict(('&%s;'%k,eval("u'\\u%04x'"%v)) for k, v in htmlentitydefs.name2codepoint.items())
Я забыл отмечать его сначала, но я использую BeautifulSoup.
Рытье вокруг в документации, я нашел:
soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
делает это точно, как я надеялся.