Я использую scrapy для ежедневного сканирования новостного веб-сайта. Как запретить scrapy очищать уже очищенные URL. Также есть четкая документация или примеры на SgmlLinkExtractor .
SgmlLinkExtractor