Интеллектуальный анализ экранных данных с помощью различных прокси и агентов пользователя случайным образом?

Я хочу загрузить немного страниц HTML с http://abc.com/view_page.aspx?ID=, который идентификатор от массива различных чисел.

Я интересовался бы посещением нескольких экземпляров этого URL и сохранить файл как [идентификатор].HTML использование другого IP/портов прокси.

Я хочу использовать различные агенты пользователя, и я хочу рандомизировать времена ожидания перед каждой загрузкой.

Каков лучший способ сделать это? urllib2? pycURL? ЗАВИХРЕНИЕ? Что Вы предпочитаете для задачи под рукой?

Советуйте.Спасибо, ребята!

8
задан ThinkCode 10 May 2010 в 15:08
поделиться

2 ответа

Используйте что-то вроде:

import urllib2
import time
import random

MAX_WAIT = 5
ids = ...
agents = ...
proxies = ...

for id in ids:
    url = 'http://abc.com/view_page.aspx?ID=%d' % id
    opener = urllib2.build_opener(urllib2.ProxyHandler({'http' : proxies[0]}))
    html = opener.open(urllib2.Request(url, None, {'User-agent': agents[0]})).read()
    open('%d.html' % id, 'w').write(html)
    agents.append(agents.pop()) # cycle
    proxies.append(proxies.pop())
    time.sleep(MAX_WAIT*random.random())
5
ответ дан 5 December 2019 в 18:57
поделиться

Используйте unix инструмент wget. В нем есть возможность указать пользовательский user-agent и задержку между каждым получением страницы.

Вы можете посмотреть wget(1) man page для получения дополнительной информации.

2
ответ дан 5 December 2019 в 18:57
поделиться
Другие вопросы по тегам:

Похожие вопросы: