Глядя на таблицу Latin-1
unicode , я вижу код символа 00E9
" LATIN SMALL LETTER E WITH ACUTE ". Это акцентированный символ в ваших данных образца. Простой тест в Python
показывает, что кодировка UTF-8
для этого символа отличается от кодировки unicode (почти UTF-16
).
>>> u'\u00e9'
u'\xe9'
>>> u'\u00e9'.encode('utf-8')
'\xc3\xa9'
>>>
Я предлагаю вам попробовать encode("UTF-8")
данные в unicode перед вызовом специального unicode_csv_reader()
. Простое чтение данных из файла может скрыть кодировку, поэтому проверьте фактические значения символов.