Я использую scrapy для сканирования нескольких страниц на сайте.
Переменная start_urls
используется для определения страниц для сканирования.
Сначала я бы начал с 1-й страницы, таким образом определив start_urls = [1st page]
в файле example_spider.py
После получения дополнительной информации с 1-й страницы я бы определил, какие следующие страницы нужно будет сканироваться, затем назначит start_urls
соответственно. Следовательно, я должен перезаписать приведенный выше example_spider.py с изменениями в start_urls = [1-я страница, 2-я страница, ..., K-я страница]
, а затем снова запустить сканирование scrapy.
Это лучший подход или есть лучший способ динамически назначать start_urls
с использованием scrapy API без необходимости перезаписывать example_splider.py
?
Спасибо.