Как лучше всего сравнивать данные при импорте в базу данных?

У меня есть таблица базы данных MySQL, содержащая информацию примерно о 1000 магазинах. Теперь я буду импортировать больше магазинов, загрузив электронную таблицу Excel, и я стараюсь избегать дублирования.

  • Магазины могут иметь одно и то же имя, но никогда не одинаковый адрес.
  • Магазины могут иметь один и тот же адрес, но никогда то же имя

Но вот моя проблема.

  • В магазинах могут быть написаны ошибки
  • Адрес может быть написан неправильно

В настоящее время я импортирую данные во временную таблицу. Теперь мне интересно, как лучше всего сравнить импортированные магазины с уже существующими.

Я планирую пройтись по каждой строке и сравнить магазины.

  • Сначала сравните a.name = b.name И a.street = b.street. При совпадении магазин удаляется.
  • Затем я проведу сравнение Левенштейна по названию и улице. Здесь мне, вероятно, придется вручную просмотреть результаты, чтобы определить, не является ли это дубликатом.

Кто-нибудь имел опыт такого рода сравнения данных?

Обновление
Спасибо за хорошие ответы.

Поля, которые будут использоваться для сравнения:

  • имя
  • почтовый адрес
  • почтовый индекс
  • город
  • Страна

Я думаю примерно так:

Выбрать строки, где name = Lavenshtein и country = country.
Таким образом, мне нужно будет работать только с небольшим списком.

Тогда я могу начать сравнивать имя и адрес более тщательно.

6
задан Steven 28 July 2011 в 11:00
поделиться