приблизительный RegEx в Python с TRE: странное поведение в Юникоде

Question

приблизительный RegEx в Python с TRE: странное поведение в Юникоде

Я пытаюсь использовать TRE -библиотеку в python для сопоставления ввода с ошибками.
Важно, чтобы он правильно обрабатывал строки в кодировке utf-8.

пример:
Название столицы Германии - Берлин, но, судя по произношению, то же самое, если люди будут писать «Bärlin»

. Пока это работает, но если символ не-ASCII находится на первой или второй позиции обнаруженной строки , ни диапазон, ни сама обнаруженная строка не верны.

# -*- coding: utf-8 -*-
import tre

def apro_match(word, list):
    fz = tre.Fuzzyness(maxerr=3)
    pt = tre.compile(word)
    for i in l:
        m = pt.search(i,fz)
        if m:
            print m.groups()[0],' ', m[0]

if __name__ == '__main__':
    string1 = u'Berlín'.encode('utf-8')
    string2 = u'Bärlin'.encode('utf-8')    
    string3 = u'B\xe4rlin'.encode('utf-8')
    string4 = u'Berlän'.encode('utf-8')
    string5 = u'London, Paris, Bärlin'.encode('utf-8')
    string6 = u'äerlin'.encode('utf-8')
    string7 = u'Beälin'.encode('utf-8')

    l = ['Moskau', string1, string2, string3, string4, string5, string6, string7]

    print '\n'*2
    print "apro_match('Berlin', l)"
    print "="*20
    apro_match('Berlin', l)
    print '\n'*2

    print "apro_match('.*Berlin', l)"
    print "="*20
    apro_match('.*Berlin', l)

output

apro_match('Berlin', l)
====================
(0, 7)   Berlín
(1, 7)   ärlin
(1, 7)   ärlin
(0, 7)   Berlän
(16, 22)   ärlin
(1, 7)   ?erlin
(0, 7)   Beälin



apro_match('.*Berlin', l)
====================
(0, 7)   Berlín
(0, 7)   Bärlin
(0, 7)   Bärlin
(0, 7)   Berlän
(0, 22)   London, Paris, Bärlin
(0, 7)   äerlin
(0, 7)   Beälin

Не то, чтобы для регулярного выражения '. * Berlin' он работал нормально, а для регулярного выражения 'Berlin'

u'Bärlin'.encode('utf-8')    
u'B\xe4rlin'.encode('utf-8')
u'äerlin'.encode('utf-8')

не работают, а

u'Berlín'.encode('utf-8')
u'Berlän'.encode('utf-8')
u'London, Paris, Bärlin'.encode('utf-8')
u'Beälin'.encode('utf-8')

работают должным образом

Что-то я делаю не так с кодировкой? Знаете ли вы какой-нибудь трюк?

5

python regex fuzzy-comparison tre-library

задан VikingoS says Reinstate Monica 4 August 2011 в 18:10

0 ответов

Другие вопросы по тегам:

python regex fuzzy-comparison tre-library

приблизительный RegEx в Python с TRE: странное поведение в Юникоде

0 ответов

Похожие вопросы: