. Я просматриваю сайт, который может содержать много начальных_урлов
, например:
http://www.a.com/list_1_2_3.htm
Я хочу заполнить начальные_урлы
например [list_ \ d + _ \ d + _ \ d + \. htm]
,
и извлекать элементы из URL-адресов типа [node_ \ d + \. htm]
во время сканирования.
Могу ли я использовать CrawlSpider
для реализации этой функции?
И как мне динамически сгенерировать start_urls
при сканировании?