k-средних пустой кластер

Я пытаюсь реализовать k-среднихв качестве домашнего задания. В моем листе упражнений есть следующее замечание относительно пустых центров:

Во время итераций, если какой-либо из центров кластера не имеет связанных с ним точек данных, замените его случайной точкой данных.

Это меня немного смущает, во-первых, Википедия или другие источники, которые я читал, вообще не упоминают об этом. Далее я прочитал о проблеме с «выбором хорошего k для ваших данных» — как мой алгоритм должен сходиться, если я начну устанавливать новые центры для кластера, который был пуст.

Если я игнорирую пустые кластеры, я схожусь после 30-40 итераций. Неправильно ли игнорировать пустые кластеры?

12
задан Bill the Lizard 18 October 2012 в 14:34
поделиться