Извлекать ссылки, содержащие выделенный текст со шведскими символами [дубликат]

2
задан Mace 7 October 2013 в 18:51
поделиться

3 ответа

Используйте строку unicode для выражения XPath

hxs.select(u"id('unitControl')/div[2]/table/tbody/tr[td//text()[contains(.,'Antal Badeværelser')]]/td[2]/text()").extract()

или

hxs.select(u"id('unitControl')/div[2]/table/tbody/tr[td//text()[contains(.,'Antal Badev\u00e6relser')]]/td[2]/text()").extract()

См. Литералы Unicode в исходном коде на языке Python

5
ответ дан paul trmbrth 20 August 2018 в 13:07
поделиться
  • 1
    Спасибо за ответ. Тем не менее, я все еще получаю сообщение об ошибке с вашим решением. – Mace 7 October 2013 в 18:37
  • 2
    Я посмотрел ссылку, которую вы разместили, и добавил #!/usr/bin/env python и # -*- coding: latin-1 -*- в начало файла, но все равно возвращает ту же ошибку. – Mace 7 October 2013 в 18:54
  • 3
    Теперь это работает, спасибо! Я исправил неверный паук :( извините – Mace 7 October 2013 в 19:08
  • 4
    Интересно, что для меня, по крайней мере, я только второе решение возвращает правильное значение [u'2']. Первое решение возвращает пустой список []. Любые мысли о том, почему? – Mace 7 October 2013 в 19:18
  • 5
    ah yeah, для первого решения потребуется строка # -*- coding: в исходном файле и зависит от реальной кодировки, например, я работаю только в UTF8 и обычно добавляю # -*- coding: utf-8 -*- – paul trmbrth 7 October 2013 в 19:30
repsonse.xpath("//tr[contains(., '" + u'中文字符' + "')]").extract()
0
ответ дан Baum mit Augen 20 August 2018 в 13:07
поделиться
SyntaxError: Non-ASCII character ‘\xe2′ in file … on line 40, 

, но не объявлено декодирование ...

Это вызвано заменой стандартных символов, таких как апостроф (') нестандартными символами, такими как кавычки (`) во время копирования.

Попробуйте отредактировать текст, скопированный из pdf.

0
ответ дан Nabin 20 August 2018 в 13:07
поделиться
Другие вопросы по тегам:

Похожие вопросы: