Будучи хорошим гражданином и занимаюсь поиском веб-страниц

У меня вопрос из двух частей.

Во-первых, я пишу веб-скребок на основе паука CrawlSpider в Scrapy. Я стремлюсь очистить веб-сайт, содержащий многие тысячи (возможно, сотни тысяч) записей. Эти записи скрыты на 2-3 слоя ниже начальной страницы. Так что в основном у меня есть запуск паука на определенной странице, сканирование до тех пор, пока он не найдет определенный тип записи, а затем синтаксический анализ html. Мне интересно, какие существуют методы, чтобы мой паук не перегружал сайт? Есть ли способ делать что-то постепенно или делать паузу между разными запросами?

Во-вторых, и связанное с этим, есть ли метод с помощью Scrapy для тестирования краулера без чрезмерной нагрузки на сайт? Я знаю, что вы можете убить программу во время ее работы, но есть ли способ остановить скрипт после того, как вы нажмете что-то вроде первой страницы, на которой есть информация, которую я хочу очистить?

Любые советы или ресурсы были бы очень признательны.

6
задан user1074057 17 December 2011 в 04:18
поделиться