Urllib2 и BeautifulSoup :Хорошая пара, но слишком медленная -urllib3 и потоки?

Я искал способ оптимизировать свой код, когда услышал несколько хороших отзывов о потоках и urllib3. Очевидно, люди расходятся во мнениях, какое решение является лучшим.

Проблема с моим скриптом ниже заключается в том, что время выполнения:очень медленное!

Шаг 1:Я загружаю эту страницуhttp://www.cambridgeesol.org/institutions/results.php?region=Afghanistan&type=&BULATS=on

Шаг 2:Я анализирую страницу с помощью BeautifulSoup

Шаг 3:Я помещаю данные в документ Excel

Шаг 4:Я делаю это снова, и снова, и снова для всех страны в моем списке (большой список) (Я просто меняю "Афганистан" в URL на другую страну)

Вот мой код:

ws = wb.add_sheet("BULATS_IA") #We add a new tab in the excel doc
    x = 0 # We need x and y for pulling the data into the excel doc
    y = 0
    Countries_List = ['Afghanistan','Albania','Andorra','Argentina','Armenia','Australia','Austria','Azerbaijan','Bahrain','Bangladesh','Belgium','Belize','Bolivia','Bosnia and Herzegovina','Brazil','Brunei Darussalam','Bulgaria','Cameroon','Canada','Central African Republic','Chile','China','Colombia','Costa Rica','Croatia','Cuba','Cyprus','Czech Republic','Denmark','Dominican Republic','Ecuador','Egypt','Eritrea','Estonia','Ethiopia','Faroe Islands','Fiji','Finland','France','French Polynesia','Georgia','Germany','Gibraltar','Greece','Grenada','Hong Kong','Hungary','Iceland','India','Indonesia','Iran','Iraq','Ireland','Israel','Italy','Jamaica','Japan','Jordan','Kazakhstan','Kenya','Kuwait','Latvia','Lebanon','Libya','Liechtenstein','Lithuania','Luxembourg','Macau','Macedonia','Malaysia','Maldives','Malta','Mexico','Monaco','Montenegro','Morocco','Mozambique','Myanmar (Burma)','Nepal','Netherlands','New Caledonia','New Zealand','Nigeria','Norway','Oman','Pakistan','Palestine','Papua New Guinea','Paraguay','Peru','Philippines','Poland','Portugal','Qatar','Romania','Russia','Saudi Arabia','Serbia','Singapore','Slovakia','Slovenia','South Africa','South Korea','Spain','Sri Lanka','Sweden','Switzerland','Syria','Taiwan','Thailand','Trinadad and Tobago','Tunisia','Turkey','Ukraine','United Arab Emirates','United Kingdom','United States','Uruguay','Uzbekistan','Venezuela','Vietnam']
    Longueur = len(Countries_List)



    for Countries in Countries_List:
        y = 0

        htmlSource = urllib.urlopen("http://www.cambridgeesol.org/institutions/results.php?region=%s&type=&BULATS=on" % (Countries)).read() # I am opening the page with the name of the correspondant country in the url
        s = soup(htmlSource)
        tableGood = s.findAll('table')
        try:
            rows = tableGood[3].findAll('tr')
            for tr in rows:
                cols = tr.findAll('td')
                y = 0
                x = x + 1
                for td in cols:
                    hum =  td.text
                    ws.write(x,y,hum)
                    y = y + 1
                    wb.save("%s.xls" % name_excel)

        except (IndexError):
            pass

Так что я знаю, что все не идеально, но я с нетерпением жду изучайте новые вещи в Python! Скрипт очень медленный, потому что urllib2 не такой быстрый, а BeautifulSoup. Что касается супа, я думаю, я не могу сделать его лучше, но для urllib2 я не могу.

РЕДАКТИРОВАТЬ 1: Многопроцессорная обработка бесполезна с urllib2? В моем случае интересно. Что вы, ребята, думаете об этом потенциальном решении?!

# Make sure that the queue is thread-safe!!

def producer(self):
    # Only need one producer, although you could have multiple
    with fh = open('urllist.txt', 'r'):
        for line in fh:
            self.queue.enqueue(line.strip())

def consumer(self):
    # Fire up N of these babies for some speed
    while True:
        url = self.queue.dequeue()
        dh = urllib2.urlopen(url)
        with fh = open('/dev/null', 'w'): # gotta put it somewhere
            fh.write(dh.read())

РЕДАКТИРОВАТЬ 2:URLLIB3 Может ли кто-нибудь рассказать мне больше об этом?

Повторно-использовать одно и то же соединение сокета для нескольких запросов. (HTTPConnectionPool и HTTPSConnectionPool)(с дополнительным проверка сертификата на стороне клиента-).https://github.com/shazow/urllib3

Поскольку я запрашиваю 122 раза один и тот же веб-сайт для разных страниц, я думаю, повторное использование одного и того же сокета может быть интересным, я ошибаюсь? Нельзя ли быстрее?...

http = urllib3.PoolManager()
r = http.request('GET', 'http://www.bulats.org')
for Pages in Pages_List:
    r = http.request('GET', 'http://www.bulats.org/agents/find-an-agent?field_continent_tid=All&field_country_tid=All&page=%s' % (Pages))
    s = soup(r.data)

6
задан Community 23 May 2017 в 12:19
поделиться