Я пытаюсь сканировать веб-сайт, который достаточно сложен, чтобы останавливать ботов, я имею в виду, что он разрешает только несколько запросов, после этого Scrapy зависает.
Вопрос 1: есть ли способ, если Scrapy зависнет, я могу перезапустить процесс сканирования с той же точки. Чтобы избавиться от этой проблемы, я написал свой файл настроек следующим образом
BOT_NAME = 'MOZILLA'
BOT_VERSION = '7.0'
SPIDER_MODULES = ['yp.spiders']
NEWSPIDER_MODULE = 'yp.spiders'
DEFAULT_ITEM_CLASS = 'yp.items.YpItem'
USER_AGENT = '%s/%s' % (BOT_NAME, BOT_VERSION)
DOWNLOAD_DELAY = 0.25
DUPEFILTER=True
COOKIES_ENABLED=False
RANDOMIZE_DOWNLOAD_DELAY=True
SCHEDULER_ORDER='BFO'
Это мой program:
class ypSpider(CrawlSpider):
name = "yp"
start_urls = [
SOME URL
]
rules=(
#These are some rules
)
def parse_item(self, response):
####################################################################
#cleaning the html page by removing scripts html tags
#######################################################
hxs=HtmlXPathSelector(response)
Вопрос в том, где я мог бы написать http-прокси и должен ли я импортировать какие-либо классы, связанные с Tor. Я новичок в Scrapy, потому что из этой группы я так много узнал, теперь я пытаюсь узнать, «как использовать ip rotation or tor '
Как предложил один из наших участников, я запустил tor и установил HTTP_PROXY на
set http_proxy=http://localhost:8118
, но он выдает некоторые ошибки,
failure with no frames>: class 'twisted.internet.error.ConnectionRefusedError' Connection was refused by other side 10061: No connection could be made because the target machine actively refused it.
Поэтому я изменил http_proxy на
set http_proxy=http://localhost:9051
Теперь ошибка
failure with no frames>: class 'twisted.internet.error.ConnectionDone' connection was closed cleanly.
] Я проверил настройки сети firefox, там я не увидел никаких http прокси, но вместо этого он использует SOCKSV5, там он показывает 127.0.0.1:9051. (До TOR он работает без прокси) Пожалуйста, помогите мне, я все еще не понимание того, как использовать TOR через Scrapy. Какой пакет TOR я должен использовать и как? Я надеюсь, что оба моих вопроса будут решены