Посчитайте, сколько конкретных символов в строке

Глядя на таблицу Latin-1 unicode , я вижу код символа 00E9 " LATIN SMALL LETTER E WITH ACUTE ". Это акцентированный символ в ваших данных образца. Простой тест в Python показывает, что кодировка UTF-8 для этого символа отличается от кодировки unicode (почти UTF-16).

>>> u'\u00e9'
u'\xe9'
>>> u'\u00e9'.encode('utf-8')
'\xc3\xa9'
>>> 

Я предлагаю вам попробовать encode("UTF-8") данные в unicode перед вызовом специального unicode_csv_reader(). Простое чтение данных из файла может скрыть кодировку, поэтому проверьте фактические значения символов.

21
задан Keith 1 December 2015 в 18:45
поделиться