Используя urllib и BeautifulSoup для получения информации от сети с Python

Я могу получить страницу HTML с помощью urllib и использовать BeautifulSoup для парсинга страницы HTML, и похоже, что я должен генерировать файл, который будет считан из BeautifulSoup.

import urllib                                       
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()                            
sock.close()                                        
--> write to file

Существует ли способ назвать BeautifulSoup, не генерируя файл от urllib?

10
задан modhorat 14 August 2017 в 07:58
поделиться

1 ответ

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(htmlSource)

Запись в файл не требуется: просто передайте строку HTML. Вы также можете напрямую передать объект, возвращенный из urlopen :

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f)
20
ответ дан 3 December 2019 в 19:32
поделиться
Другие вопросы по тегам:

Похожие вопросы: