Итак, я проанализировал html-страницу с помощью .findAll
(BeautifulSoup) в переменной с именем result
. {{1} } Если я наберу результат
в оболочке Python, а затем нажмите Enter, я увижу обычный текст, как и ожидалось, но поскольку я хотел выполнить постобработку этого результата как строкового объекта, я заметил, что str (result)
возвращает мусор, как в этом примере:
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Исходный код HTML-страницы закодирован в utf-8
Как я могу справиться с этим?
Код в основном такой, если это имеет значение:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python составляет 2,7