как распознать подобные слова с различием в написании

Question

как распознать подобные слова с различием в написании

Я хочу отфильтровать дублирующиеся имена клиента от базы данных. У единственного клиента может быть больше чем одна запись в систему с тем же именем, но с небольшим различием в написании. Таким образом, вот пример: у клиента по имени Brook может быть три записи в систему с этим изменения:

Brook Berta
Брук Berta
Biruk Berta

Давайте предположим, что мы ставим это имя в одном столбце базы данных. Я хотел бы знать, что различные механизмы определяют, что такая форма дублирований говорит 100,000 записи. Мы можем использовать регулярные выражения в C# для итерации через все записи или некоторый другой метод сопоставления с образцом, или мы можем экспортировать эти записи на то, что когда-либо лучше всего соответствует таким запросам (SQL с возможностями Регулярного выражения)).

Это - то, что я думал как решение

Напишите код C# для итерации через каждую запись
Приведите в порядок только Совместимые буквы (в вышеупомянутом случае: BrKBrt)
Ищите тот же Совместимый шаблон от других записей, рассматривая подобные звучащие буквы как (C, K) (C, S), (F, PH)

Поэтому передайте любые идеи.

6

c# sql linq-to-sql pattern-matching

задан Wiktor Stribiżew 22 February 2019 в 11:15