Используя urllib и BeautifulSoup для получения информации от сети с Python

Question

Используя urllib и BeautifulSoup для получения информации от сети с Python

Я могу получить страницу HTML с помощью urllib и использовать BeautifulSoup для парсинга страницы HTML, и похоже, что я должен генерировать файл, который будет считан из BeautifulSoup.

import urllib                                       
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()                            
sock.close()                                        
--> write to file

Существует ли способ назвать BeautifulSoup, не генерируя файл от urllib?

10

python web-scraping beautifulsoup urllib2

задан modhorat 14 August 2017 в 07:58

1 ответ

Другие вопросы по тегам:

python web-scraping beautifulsoup urllib2

Похожие вопросы:

score 20 · Accepted Answer

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(htmlSource)

Запись в файл не требуется: просто передайте строку HTML. Вы также можете напрямую передать объект, возвращенный из urlopen :

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f)