Лучший сканер веб-графиков для скорости?

В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал.

Проект включает в себя полное содержание документа всех веб-страниц в одном доменном имени, которые доступны с домашней страницы. Написание этого с использованием Scrapy было довольно простым, но оно просто работает слишком медленно. Через 2-3 дня я могу вытащить только 100 000 страниц.

Я понял, что мое первоначальное представление о том, что Scrapy не предназначен для этого типа сканирования, само по себе раскрывается.

Я начал фокусировать свое внимание на Nutch и Methabot в надежде на улучшение производительности. Единственные данные, которые мне нужно хранить во время сканирования, - это полное содержимое веб-страницы и, предпочтительно, все ссылки на странице (но даже это можно сделать при постобработке).

Я ищу сканер это быстро и использует много параллельных запросов.

5
задан Kara 14 April 2014 в 18:52
поделиться