Я пытаюсь использовать TRE -библиотеку в python для сопоставления ввода с ошибками.
Важно, чтобы он правильно обрабатывал строки в кодировке utf-8.
пример:
Название столицы Германии - Берлин, но, судя по произношению, то же самое, если люди будут писать «Bärlin»
. Пока это работает, но если символ не-ASCII находится на первой или второй позиции обнаруженной строки , ни диапазон, ни сама обнаруженная строка не верны.
# -*- coding: utf-8 -*-
import tre
def apro_match(word, list):
fz = tre.Fuzzyness(maxerr=3)
pt = tre.compile(word)
for i in l:
m = pt.search(i,fz)
if m:
print m.groups()[0],' ', m[0]
if __name__ == '__main__':
string1 = u'Berlín'.encode('utf-8')
string2 = u'Bärlin'.encode('utf-8')
string3 = u'B\xe4rlin'.encode('utf-8')
string4 = u'Berlän'.encode('utf-8')
string5 = u'London, Paris, Bärlin'.encode('utf-8')
string6 = u'äerlin'.encode('utf-8')
string7 = u'Beälin'.encode('utf-8')
l = ['Moskau', string1, string2, string3, string4, string5, string6, string7]
print '\n'*2
print "apro_match('Berlin', l)"
print "="*20
apro_match('Berlin', l)
print '\n'*2
print "apro_match('.*Berlin', l)"
print "="*20
apro_match('.*Berlin', l)
output
apro_match('Berlin', l)
====================
(0, 7) Berlín
(1, 7) ärlin
(1, 7) ärlin
(0, 7) Berlän
(16, 22) ärlin
(1, 7) ?erlin
(0, 7) Beälin
apro_match('.*Berlin', l)
====================
(0, 7) Berlín
(0, 7) Bärlin
(0, 7) Bärlin
(0, 7) Berlän
(0, 22) London, Paris, Bärlin
(0, 7) äerlin
(0, 7) Beälin
Не то, чтобы для регулярного выражения '. * Berlin'
он работал нормально, а для регулярного выражения 'Berlin'
u'Bärlin'.encode('utf-8')
u'B\xe4rlin'.encode('utf-8')
u'äerlin'.encode('utf-8')
не работают, а
u'Berlín'.encode('utf-8')
u'Berlän'.encode('utf-8')
u'London, Paris, Bärlin'.encode('utf-8')
u'Beälin'.encode('utf-8')
работают должным образом
Что-то я делаю не так с кодировкой? Знаете ли вы какой-нибудь трюк?