В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал.
Проект включает в себя полное содержание документа всех веб-страниц в одном доменном имени, которые доступны с домашней страницы. Написание этого с использованием Scrapy было довольно простым, но оно просто работает слишком медленно. Через 2-3 дня я могу вытащить только 100 000 страниц.
Я понял, что мое первоначальное представление о том, что Scrapy не предназначен для этого типа сканирования, само по себе раскрывается.
Я начал фокусировать свое внимание на Nutch и Methabot в надежде на улучшение производительности. Единственные данные, которые мне нужно хранить во время сканирования, - это полное содержимое веб-страницы и, предпочтительно, все ссылки на странице (но даже это можно сделать при постобработке).
Я ищу сканер это быстро и использует много параллельных запросов.