Например, у меня был сайт "www.example.com"
На самом деле я хочу очистить html этого сайта, сохранив его в локальной системе.
поэтому для тестирования я сохранил эту страницу на своем рабочем столе как example.html
. Теперь я написал код паука для этого, как показано ниже
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
. Но когда я запускаю приведенный выше код, я получаю эту ошибку, как показано ниже
ValueError: Missing scheme in request url: example.html
. ] Наконец, мое намерение состоит в том, чтобы очистить файл example.html
, состоящий из html-кода www.example.com
, сохраненного в моей локальной системе
Может ли кто-нибудь предложить мне, как назначьте этот файл example.html в start_urls
Заранее спасибо