Расстояние Левенштейна - это метрика для измерения «расстояния» между двумя струнами. Он подсчитывает количество операций по замене одной строки на другую путем добавления / удаления / изменения символов.
Вы можете использовать этот алгоритм, чтобы помочь справиться с орфографическими ошибками. Если две строки очень близки, то, скорее всего, это орфографическая ошибка.
Если я правильно понимаю вашу проблему, у вас есть существующий метод разделения песен и т. Д. На кластеры, и теперь вы хотите выбрать «лучший» пример содержимого этого кластера на основе чего-либо определяющими характеристиками являются.
Я бы взглянул на байесовские классификаторы . Это может помочь в определении ключевых определяющих характеристик любого заданного кластера в ваших данных (при условии, что кластеризация не основана на явной, четко определенной таксономии), а также обеспечить некоторую устойчивость к шуму и ошибкам в метаданных или других параметрах. Затем, в зависимости от природы ваших данных и кластеров, вы, возможно, могли бы использовать методы максимального правдоподобия или методы выборки для определения одного или нескольких наиболее репрезентативных примеров из данного кластера.
Байесовские методы также могут быть полезны для вывода отсутствующих данных, например, отсутствующих значений метаданных. Распределение выборки можно использовать для генерации вероятных значений для недостающих данных на основе известных значений в других полях данных.