Я пытаюсь реализовать k-среднихв качестве домашнего задания. В моем листе упражнений есть следующее замечание относительно пустых центров:
Во время итераций, если какой-либо из центров кластера не имеет связанных с ним точек данных, замените его случайной точкой данных.
Это меня немного смущает, во-первых, Википедия или другие источники, которые я читал, вообще не упоминают об этом. Далее я прочитал о проблеме с «выбором хорошего k для ваших данных» — как мой алгоритм должен сходиться, если я начну устанавливать новые центры для кластера, который был пуст.
Если я игнорирую пустые кластеры, я схожусь после 30-40 итераций. Неправильно ли игнорировать пустые кластеры?