Эта небольшая программа:
from lxml.html import tostring, fromstring
e = fromstring('''
<html><head>
<link href="/comments.css" rel="stylesheet" type="text/css">
<link href="/index.css" rel="stylesheet" type="text/css">
</head>
<body>
<span></span>
<span></span>
</body>
</html>''')
print (tostring(e, encoding=str)) #unicode on python 2
напечатает:
<html><head><link href="/comments.css" rel="stylesheet" type="text/css"><link
href="/index.css" rel="stylesheet" type="text/css"></head><body>
<span></span>
<span></span>
</body></html>
Пробелы и разрывы строк в голове удален. Это происходит, даже если мы поместим два элемента в
. Кажется, что пустые текстовые узлы (\ s *) между элементами заголовка удалены.Как я могу сохранить пробелы и разрывы строк между s? (Я ожидаю, что вывод будет точно таким же, как и ввод)