Как создать поисковый робот на основе Scrapy для выполнения навсегда?

Question

Как создать поисковый робот на основе Scrapy для выполнения навсегда?

Я хочу создать поисковый робот на основе Scrapy для захвата изображений новостей от нескольких веб-сайтов портала новостей. Я хочу к этому поисковому роботу быть:

Выполненный навсегда

Средства это будет периодический, пересматривают некоторые страницы портала для получения обновлений.
Приоритеты расписания.

Отдайте различные приоритеты другому типу URL.
Много выборка потока

Я прочитал документ Scrapy, но не нашел что-то связанным с тем, что я перечислил (возможно, я не достаточно осторожен). Есть ли, кто-либо здесь знает, как сделать это? или просто дайте некоторую идею/пример об этом. Спасибо!

11

python web-crawler scrapy

задан superb 28 February 2010 в 04:07

1 ответ

Другие вопросы по тегам:

python web-crawler scrapy

Похожие вопросы:

score 12 · Accepted Answer

Scrapy - это фреймворк для сканирования веб-сайтов, он предназначен для поддержки ваших критериев, но не будет танцевать для вас из коробка; вам, вероятно, придется относительно познакомиться с модулем для некоторых задач.

Запускать вечно зависит от вашего приложения, которое вызывает Scrapy. Вы говорите паукам , куда и когда идти.
Назначение приоритетов - это задача промежуточного программного обеспечения планировщика , которое вам нужно будет создать и подключить к Scrapy. Документация по этому поводу выглядит пятнистой, и я не смотрел на код - в принципе функция есть.
Scrapy по своей сути, в основном асинхронный , что вполне может быть тем, что вам нужно: запрос B может быть удовлетворен, пока запрос A еще не обработан. Базовый механизм подключения не мешает добросовестной многопоточности, но Scrapy не предоставляет услуги потоковой передачи.

Scrapy - это библиотека, а не приложение. Существует нетривиальный объем работы (кода), который необходимо выполнить пользователю модуля.