Обработка исключений в выражении LINQ

Что касается дедублирования вещей, ваши раскол и совпадение строк великолепны. Если известны данные о данных, которые могут быть использованы для уменьшения рабочей нагрузки и / или получения лучших результатов, всегда полезно воспользоваться ими. Имейте в виду, что часто для устранения дублирования невозможно полностью исключить ручную работу, хотя вы можете сделать это намного проще, поймав столько, сколько сможете, и затем создайте отчеты о своих «случаях неопределенности».

Что касается соответствия имени: SOUNDEX ужасен для качества соответствия и особенно плохого для типа работы, которую вы пытаетесь сделать, поскольку это будет соответствовать вещам, которые слишком далеки от цели. Лучше использовать комбинацию двойных результатов метафонов и расстояние Левенштейна для выполнения сопоставления имен. При соответствующем смещении это работает очень хорошо и, вероятно, может быть использовано для второго прохода после выполнения очистки ваших известных.

Вы также можете рассмотреть возможность использования пакета SSIS и поиск преобразований нечеткого поиска и группировки ( http://msdn.microsoft.com/en-us/library/ms345128(SQL.90).aspx).

Использование полнотекстового поиска по SQL (http://msdn.microsoft.com/ en-us / library / cc879300.aspx) также возможно, но, вероятно, не подходит для вашего конкретного проблемного домена.

16
задан Rocco Hundertmark 1 December 2010 в 08:42
поделиться