Алгоритм машинного обучения для классификации данных. [закрытый]

5
задан twk 16 July 2012 в 16:35
поделиться

2 ответа

Расстояние Левенштейна - это метрика для измерения «расстояния» между двумя струнами. Он подсчитывает количество операций по замене одной строки на другую путем добавления / удаления / изменения символов.

Вы можете использовать этот алгоритм, чтобы помочь справиться с орфографическими ошибками. Если две строки очень близки, то, скорее всего, это орфографическая ошибка.

http://en.wikipedia.org/wiki/Levenshtein_distance

2
ответ дан 14 December 2019 в 19:01
поделиться

Если я правильно понимаю вашу проблему, у вас есть существующий метод разделения песен и т. Д. На кластеры, и теперь вы хотите выбрать «лучший» пример содержимого этого кластера на основе чего-либо определяющими характеристиками являются.

Я бы взглянул на байесовские классификаторы . Это может помочь в определении ключевых определяющих характеристик любого заданного кластера в ваших данных (при условии, что кластеризация не основана на явной, четко определенной таксономии), а также обеспечить некоторую устойчивость к шуму и ошибкам в метаданных или других параметрах. Затем, в зависимости от природы ваших данных и кластеров, вы, возможно, могли бы использовать методы максимального правдоподобия или методы выборки для определения одного или нескольких наиболее репрезентативных примеров из данного кластера.

Байесовские методы также могут быть полезны для вывода отсутствующих данных, например, отсутствующих значений метаданных. Распределение выборки можно использовать для генерации вероятных значений для недостающих данных на основе известных значений в других полях данных.

3
ответ дан 14 December 2019 в 19:01
поделиться
Другие вопросы по тегам:

Похожие вопросы: