Как разбирать строки Unicode с помощью minidom?

Я пытаюсь проанализировать кучу XML-файлов с помощью библиотеки xml.dom.minidom, чтобы извлечь некоторые данные и поместить это в текстовом файле. Большинство XML-файлов работают нормально, но для некоторых из них при вызове minidom.parsestring () возникает следующая ошибка:

UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ u2019' в позиции 5189: порядковый номер not in range (128)

Это происходит и с некоторыми другими символами, отличными от ascii. Мой вопрос: какие у меня здесь варианты? Должен ли я каким-то образом удалить / заменить все эти неанглийские символы, прежде чем смогу анализировать файлы XML?

12
задан dariopy 16 March 2011 в 18:02
поделиться