Извлекать ссылки, содержащие выделенный текст со шведскими символами [дубликат]

Question

2

задан Mace 7 October 2013 в 18:51

3 ответа

repsonse.xpath("//tr[contains(., '" + u'中文字符' + "')]").extract()

0

ответ дан Baum mit Augen 20 August 2018 в 13:07

SyntaxError: Non-ASCII character ‘\xe2′ in file … on line 40,

, но не объявлено декодирование ...

Это вызвано заменой стандартных символов, таких как апостроф (') нестандартными символами, такими как кавычки (`) во время копирования.

Попробуйте отредактировать текст, скопированный из pdf.

0

ответ дан Nabin 20 August 2018 в 13:07

Другие вопросы по тегам:

python xpath scrapy

score 5 · Accepted Answer

Используйте строку unicode для выражения XPath

hxs.select(u"id('unitControl')/div[2]/table/tbody/tr[td//text()[contains(.,'Antal Badeværelser')]]/td[2]/text()").extract()

или

hxs.select(u"id('unitControl')/div[2]/table/tbody/tr[td//text()[contains(.,'Antal Badev\u00e6relser')]]/td[2]/text()").extract()

5

ответ дан paul trmbrth 20 August 2018 в 13:07

1

Спасибо за ответ. Тем не менее, я все еще получаю сообщение об ошибке с вашим решением. – Mace 7 October 2013 в 18:37
2

Я посмотрел ссылку, которую вы разместили, и добавил #!/usr/bin/env python и # -*- coding: latin-1 -*- в начало файла, но все равно возвращает ту же ошибку. – Mace 7 October 2013 в 18:54
3

Теперь это работает, спасибо! Я исправил неверный паук :( извините – Mace 7 October 2013 в 19:08
4

Интересно, что для меня, по крайней мере, я только второе решение возвращает правильное значение [u'2']. Первое решение возвращает пустой список []. Любые мысли о том, почему? – Mace 7 October 2013 в 19:18
5

ah yeah, для первого решения потребуется строка # -*- coding: в исходном файле и зависит от реальной кодировки, например, я работаю только в UTF8 и обычно добавляю # -*- coding: utf-8 -*- – paul trmbrth 7 October 2013 в 19:30