с использованием tor с scrapy framework

Я пытаюсь сканировать веб-сайт, который достаточно сложен, чтобы останавливать ботов, я имею в виду, что он разрешает только несколько запросов, после этого Scrapy зависает.

Вопрос 1: есть ли способ, если Scrapy зависнет, я могу перезапустить процесс сканирования с той же точки. Чтобы избавиться от этой проблемы, я написал свой файл настроек следующим образом

BOT_NAME = 'MOZILLA'
BOT_VERSION = '7.0'

SPIDER_MODULES = ['yp.spiders']
NEWSPIDER_MODULE = 'yp.spiders'
DEFAULT_ITEM_CLASS = 'yp.items.YpItem'
USER_AGENT = '%s/%s' % (BOT_NAME, BOT_VERSION)

DOWNLOAD_DELAY = 0.25
DUPEFILTER=True
COOKIES_ENABLED=False
RANDOMIZE_DOWNLOAD_DELAY=True
SCHEDULER_ORDER='BFO'

Это мой program:

class ypSpider(CrawlSpider):

   name = "yp"


   start_urls = [
       SOME URL

   ]
   rules=(
      #These are some rules
   )
   def parse_item(self, response):
   ####################################################################
   #cleaning the html page by removing scripts html tags    
   #######################################################
   hxs=HtmlXPathSelector(response)

Вопрос в том, где я мог бы написать http-прокси и должен ли я импортировать какие-либо классы, связанные с Tor. Я новичок в Scrapy, потому что из этой группы я так много узнал, теперь я пытаюсь узнать, «как использовать ip rotation or tor '

Как предложил один из наших участников, я запустил tor и установил HTTP_PROXY на

set http_proxy=http://localhost:8118

, но он выдает некоторые ошибки,

failure with no frames>: class 'twisted.internet.error.ConnectionRefusedError'   Connection was refused by other side 10061: No connection could be made because the target machine actively refused it.

Поэтому я изменил http_proxy на

set http_proxy=http://localhost:9051

Теперь ошибка

failure with no frames>: class 'twisted.internet.error.ConnectionDone' connection was closed cleanly.

] Я проверил настройки сети firefox, там я не увидел никаких http прокси, но вместо этого он использует SOCKSV5, там он показывает 127.0.0.1:9051. (До TOR он работает без прокси) Пожалуйста, помогите мне, я все еще не понимание того, как использовать TOR через Scrapy. Какой пакет TOR я должен использовать и как? Я надеюсь, что оба моих вопроса будут решены

  1. Если сканер scrapy зависает для некоторых причина (сбой подключения), я хотел бы возобновить службу оттуда сам
  2. Как использовать ротацию IP-адресов в Scrapy
6
задан NullUserException 11 November 2011 в 18:47
поделиться