Я просмотрел множество тем, но, похоже, не нашел ответа на свой конкретный вопрос. Я создал поискового робота для веб-сайта и работает отлично. Затем я сделал аналогичный для сканирования аналогичного веб-сайта, но на этот раз у меня возникла небольшая проблема. Вернемся к делу:
мой начальный URL выглядит следующим образом: www.example.com. Страница содержит ссылки, которые я хочу применить к своему пауку:
...
Теперь у меня проблема: Каждый раз, когда я ввожу начальный URL, он автоматически перенаправляется на www.example.com/locationA, и все ссылки, по которым у меня работает мой паук, включают
Итак, моя проблема в том, как включить www.example.com/locationA в возвращаемые URL-адреса.Я даже получил информацию журнала, например:
-2011-11-28 21: 25: 33 + 1300 [example.com] DEBUG: перенаправление (302) на с http://www.example.com/>
-2011-11-28 21: 25: 34 + 1300 [example.com] ОТЛАДКА: перенаправление (302) на (referer: None)
Распечатать из parse_item: www.example.com/locationB
....
Я думаю, проблема может быть в связано с этим (referer: None) каким-то образом. Не мог бы кто-нибудь пролить свет на это ??
Я сузил этот вопрос, изменив начальный URL на www.example.com/locationB. Поскольку все страницы содержат списки всех местоположений, на этот раз мой паук работает на:
-www.example.com/locationA
-www.example.com/locationC ...
В общем, я ищу способ включить URL-адрес, который совпадает с (или перенаправляется) начальным URL-адресом в список, с которым будет работать обратный вызов parse_item.