Я все еще пытаюсь понять, почему он не находит и не разделяет теги:
blockquote>. Эти обратные косы вызывают упущение некоторых тегов.
Это может быть проблемой с базовым синтаксическим анализатором SGML: см. http://www.crummy.com/software/BeautifulSoup/documentation .html # Дезинфекция% 20Bad% 20Data% 20with% 20Regexps . Вы можете переопределить его, используя регулярное выражение
markupMassage
- прямо из документов:import re, copy myMassage = [(re.compile('Bar
Baz