Как обрабатывать кодировку ответа от urllib.request.urlopen ()

Я пытаюсь выполнить поиск на веб-странице с помощью регулярных выражений, но получаю следующую ошибку:

TypeError: невозможно использовать строковый шаблон для байтового объекта

Я понимаю, почему, urllib.request. urlopen () возвращает байтовый поток, поэтому, по крайней мере, я предполагаю, re не знает кодировку, которую нужно использовать. Что мне делать в этой ситуации? Есть ли способ указать метод кодирования в urlrequest, или мне нужно будет самому перекодировать строку? Если да, то что я хочу сделать, я предполагаю, что мне следует прочитать кодировку из информации заголовка или тип кодировки, если он указан в html, а затем перекодировать его в это?

42
задан Tim Cooper 13 February 2011 в 02:08
поделиться