Я провел тест кластеризации на просканированных страницах (более 25K документов; набор личных данных) . Я сделал кластерный дамп:
$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt
Результат после запуска кластерного дампера показывает 25 элементов «VL-xxxxx {}»:
VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}
Как интерпретировать этот вывод?
Короче: я ищу идентификаторы документов, которые принадлежат определенному кластеру.
Что означает:
Означает ли 0: 0.017, что «0» - это идентификатор документа, который принадлежит этому кластеру?
Я уже читал на wiki-страницах mahout, что означают CL, n, c и r. Но может ли кто-нибудь объяснить их мне лучше или указать на ресурс, где это объясняется немного более подробно?
Извините, если я задаю глупые вопросы, но я новичок в использовании apache mahout и использую его как часть моего задания курса по кластеризации. 1 1 1_1 34 2 1 2_1 23 3 1 3_1 67 4 2 4_2 6 5 2 5_2 24 6 2 6_2 45 1 3 1_3 34 2 3 2_3 67 3 ...
У меня есть data.frame такой же простой, как этот:
id group idu value
1 1 1_1 34
2 1 2_1 23
3 1 3_1 67
4 2 4_2 6
5 2 5_2 24
6 2 6_2 45
1 3 1_3 34
2 3 2_3 67
3 3 3_3 76
, откуда я хочу получить подмножество с первыми записями каждой группы; что-то вроде:
id group idu value
1 1 1_1 34
4 2 4_2 6
1 3 1_3 34
id не уникален, поэтому подход не должен полагаться на него.
Могу ли я добиться этого, избегая циклов?
dput ()
of data:
structure(list(id = c(1L, 2L, 3L, 4L, 5L, 6L, 1L, 2L, 3L), group = c(1L,
1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L), idu = structure(c(1L, 3L, 5L,
7L, 8L, 9L, 2L, 4L, 6L), .Label = c("1_1", "1_3", "2_1", "2_3",
"3_1", "3_3", "4_2", "5_2", "6_2"), class = "factor"), value = c(34L,
23L, 67L, 6L, 24L, 45L, 34L, 67L, 76L)), .Names = c("id", "group",
"idu", "value"), class = "data.frame", row.names = c(NA, -9L))