html2text является программой Python, которая делает довольно хорошее задание в этом.
PyParsing делает отличную работу. PyParsing wiki был уничтожен, таким образом, вот другое местоположение, где существуют примеры использования PyParsing ( ссылка в качестве примера ). Одна причина того, чтобы наделить немного времени pyparsing состоит в том, что он также записал, что очень краткое очень хорошо организовало руководство Короткого пути O'Reilly, которое также недорого.
Однако я использую BeautifulSoup много и не то, чтобы трудно заниматься проблемами объектов, можно преобразовать их перед выполнением BeautifulSoup.
Goodluck
Вы также можете использовать метод html2text в библиотеке стрипограмм.
from stripogram import html2text
text = html2text(your_html_string)
Чтобы установить стрипограмму, запустите sudo easy_install stripogram