Я хочу создать поисковый робот на основе Scrapy для захвата изображений новостей от нескольких веб-сайтов портала новостей. Я хочу к этому поисковому роботу быть:
Выполненный навсегда
Средства это будет периодический, пересматривают некоторые страницы портала для получения обновлений.
Приоритеты расписания.
Отдайте различные приоритеты другому типу URL.
Много выборка потока
Я прочитал документ Scrapy, но не нашел что-то связанным с тем, что я перечислил (возможно, я не достаточно осторожен). Есть ли, кто-либо здесь знает, как сделать это? или просто дайте некоторую идею/пример об этом. Спасибо!
Scrapy - это фреймворк для сканирования веб-сайтов, он предназначен для поддержки ваших критериев, но не будет танцевать для вас из коробка; вам, вероятно, придется относительно познакомиться с модулем для некоторых задач.
Scrapy - это библиотека, а не приложение. Существует нетривиальный объем работы (кода), который необходимо выполнить пользователю модуля.