Как включить начальный URL-адрес в правило «разрешить» в SgmlLinkExtractor с помощью сканирования scrapy spider

Question

Как включить начальный URL-адрес в правило «разрешить» в SgmlLinkExtractor с помощью сканирования scrapy spider

Я просмотрел множество тем, но, похоже, не нашел ответа на свой конкретный вопрос. Я создал поискового робота для веб-сайта и работает отлично. Затем я сделал аналогичный для сканирования аналогичного веб-сайта, но на этот раз у меня возникла небольшая проблема. Вернемся к делу:

мой начальный URL выглядит следующим образом: www.example.com. Страница содержит ссылки, которые я хочу применить к своему пауку:

www.example.com/locationA
www.example.com/locationB
www.example.com/locationC

...

Теперь у меня проблема: Каждый раз, когда я ввожу начальный URL, он автоматически перенаправляется на www.example.com/locationA, и все ссылки, по которым у меня работает мой паук, включают

www.example. com / locationB
www.example.com/locationC ...

Итак, моя проблема в том, как включить www.example.com/locationA в возвращаемые URL-адреса.Я даже получил информацию журнала, например:

-2011-11-28 21: 25: 33 + 1300 [example.com] DEBUG: перенаправление (302) на с http://www.example.com/>

-2011-11-28 21: 25: 34 + 1300 [example.com] ОТЛАДКА: перенаправление (302) на (referer: None)

2011-11-28 21: 25: 37 + 1300 [example.com ] DEBUG: перенаправление (302) на (referer: www.example.com/locationB)

Распечатать из parse_item: www.example.com/locationB

....

Я думаю, проблема может быть в связано с этим (referer: None) каким-то образом. Не мог бы кто-нибудь пролить свет на это ??

Я сузил этот вопрос, изменив начальный URL на www.example.com/locationB. Поскольку все страницы содержат списки всех местоположений, на этот раз мой паук работает на:

-www.example.com/locationA

-www.example.com/locationC ...

В общем, я ищу способ включить URL-адрес, который совпадает с (или перенаправляется) начальным URL-адресом в список, с которым будет работать обратный вызов parse_item.

7

scrapy web-crawler

задан Kara 14 April 2014 в 19:01

0 ответов

Другие вопросы по тегам:

scrapy web-crawler

Как включить начальный URL-адрес в правило «разрешить» в SgmlLinkExtractor с помощью сканирования scrapy spider

0 ответов

Похожие вопросы: