Переупорядочение элементов матрицы для отражения столбца и строки, кластеризирующейся в наивном Python

Question

Переупорядочение элементов матрицы для отражения столбца и строки, кластеризирующейся в наивном Python

Я ищу способ выполнить кластеризацию отдельно на матричных строках и, чем на ее столбцах, переупорядочить данные в матрице для отражения кластеризации и соединения все это. Кластеризирующаяся проблема легко разрешима, так создание древовидной схемы (например, в этом блоге или в "Программировании коллективного разума"). Однако то, как переупорядочить данные, остается неясным для меня.

В конечном счете я ищу способ создать графики, подобные тому ниже использования наивного Python (с любой "стандартной" библиотекой, такие как numpy, matplotlib и т.д., но не используя R или другие внешние инструменты).

_{(источник: warwick.ac.uk)}

Разъяснения

Меня спросили, что я подразумевал под переупорядочением. При кластеризации данных в матрице сначала матричными строками, затем ее столбцами, каждая ячейка матрицы может быть определена положением в этих двух древовидных схемах. При переупорядочении строк и столбцов исходной матрицы, таким образом, что элементы, которые близки каждый к другому в древовидных схемах, становятся близко каждым другому в матрице и затем генерируют heatmap, кластеризация данных может стать очевидной для средства просмотра (как в числе выше)

27

python statistics numpy cluster-analysis scipy

задан Glorfindel 1 July 2019 в 13:04

2 ответа

Я не уверен, что полностью понимаю, но похоже, что вы пытаетесь переиндексировать каждую ось массива на основе видов признаков дендрограммы. Я полагаю, что это предполагает наличие некоторой сравнительной логики в выделении каждой ветви. Если это так, то будет ли это работать(?):

>>> x_idxs = [(0,1,0,0),(0,1,1,1),(0,1,1),(0,0,1),(1,1,1,1),(0,0,0,0)]
>>> y_idxs = [(1,1),(0,1),(1,0),(0,0)]
>>> a = np.random.random((len(x_idxs),len(y_idxs)))
>>> x_idxs2, xi = zip(*sorted(zip(x_idxs,range(len(x_idxs)))))
>>> y_idxs2, yi = zip(*sorted(zip(y_idxs,range(len(y_idxs)))))
>>> a2 = a[xi,:][:,yi]

x_idxs и y_idxs - признаки дендрограммы. a - несортированная матрица. xi и yi - признаки нового массива строк/столбцов. a2 - отсортированная матрица, а x_idxs2 и y_idxs2 - новые, отсортированные признаки дендрограммы. Это предполагает, что при создании дендрограммы столбец/строка ветви 0 всегда сравнительно больше/меньше, чем 1.

Если ваши y_idxs и x_idxs не списки, а массивы numpy, то вы можете использовать np.argsort аналогичным образом.

5

ответ дан 28 November 2019 в 05:10

Другие вопросы по тегам:

python statistics numpy cluster-analysis scipy

Переупорядочение элементов матрицы для отражения столбца и строки, кластеризирующейся в наивном Python

2 ответа

Похожие вопросы: