Я могу получить страницу HTML с помощью urllib и использовать BeautifulSoup для парсинга страницы HTML, и похоже, что я должен генерировать файл, который будет считан из BeautifulSoup.
import urllib
sock = urllib.urlopen("http://SOMEWHERE")
htmlSource = sock.read()
sock.close()
--> write to file
Существует ли способ назвать BeautifulSoup, не генерируя файл от urllib?
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(htmlSource)
Запись в файл не требуется: просто передайте строку HTML. Вы также можете напрямую передать объект, возвращенный из urlopen
:
f = urllib.urlopen("http://SOMEWHERE")
soup = BeautifulSoup(f)