Анализ имён n-грамм на не-английских языках (CJK и т.д.)

я работаю над дедупликацией базы данных людей. Для первого прохода я следую основному 2-этапному процессу, чтобы избежать O(n^2)] операцию над всей базой данных, как описано в литературе . Во-первых, я «блокирую»-итерацию по всему набору данных и группирую каждую запись на основе n-грамм И инициалов, присутствующих в имя. Во-вторых, все записи в ячейке сравниваются с помощью Яро-Винклера, чтобы получить меру вероятности того, что они представляют одного и того же человека.

Моя проблема-имена в Юникоде. Некоторые (но не многие)из этих имен находятся в CJK (китайском-японском-корейском)языках Я понятия не имею, как найти границы слов для чего-то вроде инициалов в этих языках. Я понятия не имею, действителен ли анализ n-грамм для имен в языках, где имена могут состоять из 2 символов. Я также не знаю, допустимы ли в этом контексте расстояние редактирования-строки или другие показатели сходства.

Любой идентификатор eas от лингвистов-программистов или носителей языка?

5
задан Community 23 May 2017 в 11:49
поделиться