Как создать поисковый робот на основе Scrapy для выполнения навсегда?

Я хочу создать поисковый робот на основе Scrapy для захвата изображений новостей от нескольких веб-сайтов портала новостей. Я хочу к этому поисковому роботу быть:

  1. Выполненный навсегда

    Средства это будет периодический, пересматривают некоторые страницы портала для получения обновлений.

  2. Приоритеты расписания.

    Отдайте различные приоритеты другому типу URL.

  3. Много выборка потока

Я прочитал документ Scrapy, но не нашел что-то связанным с тем, что я перечислил (возможно, я не достаточно осторожен). Есть ли, кто-либо здесь знает, как сделать это? или просто дайте некоторую идею/пример об этом. Спасибо!

11
задан superb 28 February 2010 в 04:07
поделиться

1 ответ

Scrapy - это фреймворк для сканирования веб-сайтов, он предназначен для поддержки ваших критериев, но не будет танцевать для вас из коробка; вам, вероятно, придется относительно познакомиться с модулем для некоторых задач.

  1. Запускать вечно зависит от вашего приложения, которое вызывает Scrapy. Вы говорите паукам , куда и когда идти.
  2. Назначение приоритетов - это задача промежуточного программного обеспечения планировщика , которое вам нужно будет создать и подключить к Scrapy. Документация по этому поводу выглядит пятнистой, и я не смотрел на код - в принципе функция есть.
  3. Scrapy по своей сути, в основном асинхронный , что вполне может быть тем, что вам нужно: запрос B может быть удовлетворен, пока запрос A еще не обработан. Базовый механизм подключения не мешает добросовестной многопоточности, но Scrapy не предоставляет услуги потоковой передачи.

Scrapy - это библиотека, а не приложение. Существует нетривиальный объем работы (кода), который необходимо выполнить пользователю модуля.

12
ответ дан 3 December 2019 в 09:20
поделиться
Другие вопросы по тегам:

Похожие вопросы: