Быстрый (

У меня есть 1 миллион пятимерных точек, которые мне нужно сгруппировать в k кластеров с k << 1 миллион. В каждом кластере не должно быть двух точек слишком далеко друг от друга (например, они могут ограничивать сферы с заданным радиусом). Это означает, что, вероятно, должно быть много кластеров размером 1.

Но! Мне нужно время работы, чтобы быть значительно ниже n ^ 2. n log n или около того должно быть в порядке. Причина, по которой я делаю эту кластеризацию, заключается в том, чтобы избежать вычисления матрицы расстояний для всех n точек (что занимает n ^ 2 времени или много часов), вместо этого я хочу чтобы просто вычислить расстояния между кластерами.

Я попробовал алгоритм pycluster k-means, но быстро понял, что он слишком медленный. Я также попробовал следующий жадный подход:

Разделите пространство на 20 частей в каждом измерении. (так всего 20 ^ 5 частей). Я буду хранить кластеры в этих ячейках сетки в соответствии с их центроидами.

Для каждой точки извлеките ячейки сетки, которые t находятся в пределах r (максимального радиуса ограничивающей сферы). Если имеется достаточно кластера, добавьте его в этот кластер, в противном случае создайте новый кластер.

Однако, похоже, это дает мне больше кластеров, чем я хочу. Я также дважды реализовал аналогичные подходы, и они дают очень разные ответы.

Существуют ли какие-либо стандартные подходы к кластеризации быстрее, чем n ^ 2? Вероятностные алгоритмы в порядке.

25

algorithm machine-learning cluster-analysis data-mining k-means

задан Anony-Mousse 16 June 2015 в 21:16
поделиться

0 ответов

Другие вопросы по тегам:
algorithm machine-learning cluster-analysis data-mining k-means

Похожие вопросы:

129
Факториальные Алгоритмы на различных языках - 21 September 2014 15:40

37
Потребность в предсказуемом случайном генераторе - 9 April 2016 18:25

35
Алгоритм, чтобы определить, содержит ли массив n … n+m? - 18 October 2011 09:22

33
Важные реверсивные пары leetcode time out [duplicate] - 25 October 2014 10:12

32
Что студентам нужно преподавать сначала при первом изучении сортировки алгоритмов? [закрытый] - 22 August 2013 20:48

32
Расширить случайный диапазон от 1–5 до 1–7 - 14 September 2012 14:54

31
O (nlogn) Алгоритм - Находят три равномерно расположенных с интервалами в двоичной строке - 2 June 2012 05:51

Question

Быстрый (

У меня есть 1 миллион пятимерных точек, которые мне нужно сгруппировать в k кластеров с k << 1 миллион. В каждом кластере не должно быть двух точек слишком далеко друг от друга (например, они могут ограничивать сферы с заданным радиусом). Это означает, что, вероятно, должно быть много кластеров размером 1.

Но! Мне нужно время работы, чтобы быть значительно ниже n ^ 2. n log n или около того должно быть в порядке. Причина, по которой я делаю эту кластеризацию, заключается в том, чтобы избежать вычисления матрицы расстояний для всех n точек (что занимает n ^ 2 времени или много часов), вместо этого я хочу чтобы просто вычислить расстояния между кластерами.

Я попробовал алгоритм pycluster k-means, но быстро понял, что он слишком медленный. Я также попробовал следующий жадный подход:

Разделите пространство на 20 частей в каждом измерении. (так всего 20 ^ 5 частей). Я буду хранить кластеры в этих ячейках сетки в соответствии с их центроидами.

Для каждой точки извлеките ячейки сетки, которые t находятся в пределах r (максимального радиуса ограничивающей сферы). Если имеется достаточно кластера, добавьте его в этот кластер, в противном случае создайте новый кластер.

Однако, похоже, это дает мне больше кластеров, чем я хочу. Я также дважды реализовал аналогичные подходы, и они дают очень разные ответы.

Существуют ли какие-либо стандартные подходы к кластеризации быстрее, чем n ^ 2? Вероятностные алгоритмы в порядке.

25

algorithm machine-learning cluster-analysis data-mining k-means

задан Anony-Mousse 16 June 2015 в 21:16
поделиться

0 ответов

Другие вопросы по тегам:
algorithm machine-learning cluster-analysis data-mining k-means

Похожие вопросы:

129
Факториальные Алгоритмы на различных языках - 21 September 2014 15:40

37
Потребность в предсказуемом случайном генераторе - 9 April 2016 18:25

35
Алгоритм, чтобы определить, содержит ли массив n … n+m? - 18 October 2011 09:22

33
Важные реверсивные пары leetcode time out [duplicate] - 25 October 2014 10:12

32
Что студентам нужно преподавать сначала при первом изучении сортировки алгоритмов? [закрытый] - 22 August 2013 20:48

32
Расширить случайный диапазон от 1–5 до 1–7 - 14 September 2012 14:54

31
O (nlogn) Алгоритм - Находят три равномерно расположенных с интервалами в двоичной строке - 2 June 2012 05:51