Расстояние Хэмминга против расстояния Левенштейна

Для проблемы, над которой я работаю, нахождение расстояний между двумя последовательностями для определения их сходства, порядок последовательности очень важен. Однако последовательности, которые у меня есть, не имеют одинаковой длины, поэтому я заполняю любые недостающие строки пустыми точками, чтобы обе последовательности имели одинаковую длину, чтобы удовлетворить требованию расстояния Хэмминга. Есть ли у меня какие-то серьезные проблемы? поскольку все, что меня волнует, - это количество транспозиций (а не вставок или удалений, как это делает Левенштейн)?

Я обнаружил, что расстояние Хэмминга намного, намного быстрее, чем Левенштейна в качестве метрики расстояния для последовательностей большей длины. Когда следует использовать расстояние Левенштейна (или производные от расстояния Левенштейна) вместо гораздо более дешевого расстояния Хэмминга? Расстояние Хэмминга можно рассматривать как верхнюю границу возможных расстояний Левенштейна между двумя последовательностями, поэтому, если я сравниваю две последовательности по метрике сходства с упором на порядок, а не по абсолютному минимальному количеству ходов для соответствия последовательностям, очевидного причина для меня выбрать Левенштейна вместо Хэмминга в качестве метрики, есть ли?

45
задан don 3 January 2011 в 21:29
поделиться