Я хочу загрузить немного страниц HTML с http://abc.com/view_page.aspx?ID=, который идентификатор от массива различных чисел.
Я интересовался бы посещением нескольких экземпляров этого URL и сохранить файл как [идентификатор].HTML использование другого IP/портов прокси.
Я хочу использовать различные агенты пользователя, и я хочу рандомизировать времена ожидания перед каждой загрузкой.
Каков лучший способ сделать это? urllib2? pycURL? ЗАВИХРЕНИЕ? Что Вы предпочитаете для задачи под рукой?
Советуйте.Спасибо, ребята!
Используйте что-то вроде:
import urllib2
import time
import random
MAX_WAIT = 5
ids = ...
agents = ...
proxies = ...
for id in ids:
url = 'http://abc.com/view_page.aspx?ID=%d' % id
opener = urllib2.build_opener(urllib2.ProxyHandler({'http' : proxies[0]}))
html = opener.open(urllib2.Request(url, None, {'User-agent': agents[0]})).read()
open('%d.html' % id, 'w').write(html)
agents.append(agents.pop()) # cycle
proxies.append(proxies.pop())
time.sleep(MAX_WAIT*random.random())
Используйте unix инструмент wget
. В нем есть возможность указать пользовательский user-agent и задержку между каждым получением страницы.
Вы можете посмотреть wget(1) man page для получения дополнительной информации.