Как автоматически создать шаблон на основе реальных данных?

У меня есть много поставщиков в базе данных, все они отличаются в некоторых аспектах своих данных. Я хочу создать правило проверки данных, основанное на предыдущих данных.

Пример:

A: XZ-4, XZ-23, XZ-217
B: 1276, 1899, 22711
C: 12-4, 12-75, 12

Цель: если пользователь вводит строку «XZ-217» для поставщика B, алгоритм должен сравнить предыдущие данные и сказать: эта строка не похожа на предыдущие данные поставщика B.

Есть ли какой-нибудь хороший способ / инструменты для достижения такого сравнения? Ответом может быть какой-то общий алгоритм или модуль Perl.

Изменить: "Сходство" сложно определить, согласен. Но я хотел бы поймать алгоритм, который мог бы анализировать предыдущие около 100 образцов, а затем сравнивать результат анализа с новыми данными. Сходство может быть основано на длине, использовании символов / чисел, шаблонах создания строк, аналогичном начале / конце / середине, наличии некоторых разделителей.

Я считаю, что это непростая задача, но с другой стороны, я думаю, что это очень широкое распространение. Я надеялся, что подсказки уже есть.

5
задан w.k 13 January 2012 в 15:10
поделиться