Я использовал BeautifulSoup для обработки XML-файлов, которые я собрал через API REST.
Ответы содержат HTML-код, но BeautifulSoup выходит из всех HTML-тэгов, таким образом, он может быть отображен приятно.
К сожалению, мне нужен HTML-код.
Как я продолжил бы о преобразовании завершенного HTML в надлежащую разметку?
Справка очень ценилась бы!
Думаю, вам нужен xml.sax.saxutils.unescape из стандартной библиотеки Python.
Например:
>>> from xml.sax import saxutils as su
>>> s = '<foo>bar</foo>'
>>> su.unescape(s)
'<foo>bar</foo>'
Вы можете попробовать модуль urllib ?
В нем есть метод unquote ()
, который может удовлетворить ваши потребности.
Изменить: если подумать (и еще раз прочитать свой вопрос), вы можете просто использовать string.replace ()
Вот так:
string.replace('<','<')
string.replace('>','>')