URL-адреса сканирования Scrapy в порядке

Question

URL-адреса сканирования Scrapy в порядке

Итак, моя проблема в относительно просто. у меня есть один паук просматривает несколько сайтов, и мне нужно, чтобы он возвращал данные в том порядке, в котором я их записываю в своем коде. Он размещен ниже.

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from mlbodds.items import MlboddsItem

class MLBoddsSpider(BaseSpider):
   name = "sbrforum.com"
   allowed_domains = ["sbrforum.com"]
   start_urls = [
       "http://www.sbrforum.com/mlb-baseball/odds-scores/20110328/",
       "http://www.sbrforum.com/mlb-baseball/odds-scores/20110329/",
       "http://www.sbrforum.com/mlb-baseball/odds-scores/20110330/"
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//div[@id="col_3"]//div[@id="module3_1"]//div[@id="moduleData4952"]')
       items = []
       for site in sites:
           item = MlboddsItem()
           item['header'] = site.select('//div[@class="scoreboard-bar"]//h2//span[position()>1]//text()').extract()# | /*//table[position()<2]//tr//th[@colspan="2"]//text()').extract()
           item['game1'] = site.select('/*//table[position()=1]//tr//td[@class="tbl-odds-c2"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c4"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c6"]//text()').extract()
           items.append(item)
       return items

Результаты возвращаются в случайном порядке, например, возвращается 29-е, затем 28-е, затем 30-е. Я попытался изменить порядок планировщика с DFO на BFO, на всякий случай, если это была проблема, но это ничего не изменило.

21

python sorting asynchronous hashmap scrapy

задан Joshua 8 February 2019 в 04:40

0 ответов

Другие вопросы по тегам:

python sorting asynchronous hashmap scrapy

URL-адреса сканирования Scrapy в порядке

0 ответов

Похожие вопросы: