Я учусь делать веб-скрейперы и хочу парсить TripAdvisor для личного проекта, захватывая html с помощью urllib2. Тем не менее, я столкнулся с проблемой, когда, используя приведенный ниже код, html, который я возвращаю, неверен, поскольку страница, кажется, занимает секунду для перенаправления (, вы можете проверить это, посетив URL-адрес)-вместо этого я получаю код со страницы, которая сначала ненадолго появляется.
Есть ли какое-то поведение или параметр, который нужно установить, чтобы убедиться, что страница полностью завершила загрузку/перенаправление перед получением содержимого веб-сайта?
import urllib2
from bs4 import BeautifulSoup
bostonPage = urllib2.urlopen("http://www.tripadvisor.com/HACSearch?geo=34438#02,1342106684473,rad:S0,sponsors:ABEST_WESTERN,style:Szff_6")
soup = BeautifulSoup(bostonPage)
print soup.prettify()
Редактировать :Ответ тщательный, однако, в конце концов, моя проблема была решена: https://stackoverflow.com/a/3210737/1157283