Как разбирать строки Unicode с помощью minidom?

Question

Как разбирать строки Unicode с помощью minidom?

Я пытаюсь проанализировать кучу XML-файлов с помощью библиотеки xml.dom.minidom, чтобы извлечь некоторые данные и поместить это в текстовом файле. Большинство XML-файлов работают нормально, но для некоторых из них при вызове minidom.parsestring () возникает следующая ошибка:

UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ u2019' в позиции 5189: порядковый номер not in range (128)

Это происходит и с некоторыми другими символами, отличными от ascii. Мой вопрос: какие у меня здесь варианты? Должен ли я каким-то образом удалить / заменить все эти неанглийские символы, прежде чем смогу анализировать файлы XML?

12

python unicode minidom

задан dariopy 16 March 2011 в 18:02

0 ответов

Другие вопросы по тегам:

python unicode minidom

Как разбирать строки Unicode с помощью minidom?

0 ответов

Похожие вопросы: