Расчет процента дисперсии для k-средних?

Question

Расчет процента дисперсии для k-средних?

На странице Википедии описан метод локтя для определения количества кластеров в k- означает. Встроенный метод scipy предоставляет реализацию, но я не уверен, что понимаю, как рассчитывается искажение, как они его называют.

Точнее, если вы изобразите процент отклонения, объясняемый кластеры против количества кластеров, первые кластеры будут добавить много информации (объяснить много различий), но в какой-то момент предельное усиление упадет, давая угол на графике.

Предполагая, что у меня есть следующие точки с соответствующими центроидами, как лучше всего рассчитать эту меру?

points = numpy.array([[ 0,  0],
       [ 0,  1],
       [ 0, -1],
       [ 1,  0],
       [-1,  0],
       [ 9,  9],
       [ 9, 10],
       [ 9,  8],
       [10,  9],
       [10,  8]])

kmeans(pp,2)
(array([[9, 8],
   [0, 0]]), 0.9414213562373096)

Я специально занимаюсь вычислением меры 0,94 .. с учетом только точек и центроидов. Я не уверен, можно ли использовать какой-либо из встроенных методов scipy, или мне нужно написать свой собственный. Есть предложения, как это сделать эффективно для большого количества точек?

Вкратце, мои вопросы (все связанные) следующие:

Учитывая матрицу расстояний и отображение, какая точка принадлежит какой кластер, каков хороший способ вычисления меры, которую можно использовать чтобы нарисовать диаграмму изгиба?
Как изменится методология, если будет использоваться другая функция расстояния, такая как косинусное подобие?

РЕДАКТИРОВАТЬ 2: Искажение

from scipy.spatial.distance import cdist
D = cdist(points, centroids, 'euclidean')
sum(numpy.min(D, axis=1))

Выходные данные для первого набора точек точны. Однако, когда я пробую другой набор:

>>> pp = numpy.array([[1,2], [2,1], [2,2], [1,3], [6,7], [6,5], [7,8], [8,8]])
>>> kmeans(pp, 2)
(array([[6, 7],
       [1, 2]]), 1.1330618877807475)
>>> centroids = numpy.array([[6,7], [1,2]])
>>> D = cdist(points, centroids, 'euclidean')
>>> sum(numpy.min(D, axis=1))
9.0644951022459797

Я полагаю, последнее значение не совпадает, потому что kmeans , похоже, уменьшает значение на общее количество точек в наборе данных.

РЕДАКТИРОВАТЬ 1: Процентное отклонение

Мой код на данный момент (должен быть добавлен в реализацию Дениса K-средних):

centres, xtoc, dist = kmeanssample( points, 2, nsample=2,
        delta=kmdelta, maxiter=kmiter, metric=metric, verbose=0 )

print "Unique clusters: ", set(xtoc)
print ""
cluster_vars = []
for cluster in set(xtoc):
    print "Cluster: ", cluster

    truthcondition = ([x == cluster for x in xtoc])
    distances_inside_cluster = (truthcondition * dist)

    indices = [i for i,x in enumerate(truthcondition) if x == True]
    final_distances = [distances_inside_cluster[k] for k in indices]

    print final_distances
    print np.array(final_distances).var()
    cluster_vars.append(np.array(final_distances).var())
    print ""

print "Sum of variances: ", sum(cluster_vars)
print "Total Variance: ", points.var()
print "Percent: ", (100 * sum(cluster_vars) / points.var())

И следующий результат для k = 2:

Unique clusters:  set([0, 1])

Cluster:  0
[1.0, 2.0, 0.0, 1.4142135623730951, 1.0]
0.427451660041

Cluster:  1
[0.0, 1.0, 1.0, 1.0, 1.0]
0.16

Sum of variances:  0.587451660041
Total Variance:  21.1475
Percent:  2.77787757437

В моем реальном наборе данных (мне не кажется, что нужно!) :

Sum of variances:  0.0188124746402
Total Variance:  0.00313754329764
Percent:  599.592510943
Unique clusters:  set([0, 1, 2, 3])

Sum of variances:  0.0255808508714
Total Variance:  0.00313754329764
Percent:  815.314672809
Unique clusters:  set([0, 1, 2, 3, 4])

Sum of variances:  0.0588210052519
Total Variance:  0.00313754329764
Percent:  1874.74720416
Unique clusters:  set([0, 1, 2, 3, 4, 5])

Sum of variances:  0.0672406353655
Total Variance:  0.00313754329764
Percent:  2143.09824556
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6])

Sum of variances:  0.0646291452839
Total Variance:  0.00313754329764
Percent:  2059.86465055
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6, 7])

Sum of variances:  0.0817517362176
Total Variance:  0.00313754329764
Percent:  2605.5970695
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6, 7, 8])

Sum of variances:  0.0912820650486
Total Variance:  0.00313754329764
Percent:  2909.34837831
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Sum of variances:  0.102119601368
Total Variance:  0.00313754329764
Percent:  3254.76309585
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

Sum of variances:  0.125549475536
Total Variance:  0.00313754329764
Percent:  4001.52168834
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

Sum of variances:  0.138469402779
Total Variance:  0.00313754329764
Percent:  4413.30651542
Unique clusters:  set([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

35

python numpy statistics cluster-analysis k-means

задан Anony-Mousse 28 February 2012 в 06:54

0 ответов

Другие вопросы по тегам:

python numpy statistics cluster-analysis k-means

Расчет процента дисперсии для k-средних?

0 ответов

Похожие вопросы: