0
ответов

Java text clustering library

Which of the data mining java libraries can do text clusterization?
вопрос задан: 2 May 2011 11:12
0
ответов

Интерпретация результатов работы mahout clusterdumper

Я провел кластеризацию тестировать на просканированных страницах (более 25К документов; набор персональных данных). Я сделал кластерный дамп: $ MAHOUT_HOME / bin / mahout clusterdump --seqFileDir output / clusters-1 / --output ...
вопрос задан: 27 April 2011 14:03
0
ответов

Развертывание Mahout в кластере hadoop

Я хочу запустить пример K-средних Mahout в кластере hadoop из 5 машин. Какие jar-файлы Mahout мне нужно хранить во всех узлах, чтобы K-средства выполнялись распределенным образом ....
вопрос задан: 15 April 2011 12:44
0
ответов

k наиболее удаленных друг от друга элементов (кластеризация?)

У меня есть простой вопрос машинного обучения: у меня есть n (~ 110) элементов и матрица всех попарных расстояний. Я хотел бы выбрать 10 элементов, которые наиболее далеки друг от друга. То есть я хочу ...
вопрос задан: 23 March 2011 13:55
0
ответов

Лучшая библиотека кластеризации Python для анализа данных о продукте [закрыто]

У меня есть коллекция буквенно-цифровых кодов продуктов для различных продуктов. Подобные продукты не имеют внутреннего сходства по своим кодам, т.е. код продукта «A123» может означать «Гарри Поттер Том 1 DVD» и «...
вопрос задан: 7 March 2011 15:22
0
ответов

Выбор платформы машинного обучения [закрыто]

У меня есть набор данных пользователей и их показатели погашения кредита (сколько времени они потребовали, сколько платежей и т. д.). Теперь я хочу проанализировать прошлую историю займов пользователя и сказать: «Если мы одолжим им X, они больше всего…
вопрос задан: 27 January 2011 14:06
0
ответов

Как сгруппировать ключевые слова поисковых систем?

Из Google Analytics у меня есть (длинный) список ключевых слов, которые люди использовали в поисковых системах, чтобы найти мой веб-сайт. изучение ...
вопрос задан: 6 January 2011 16:14
0
ответов

Good algorithm to find themes in tweets ranked by follower counts?

I'm new to data mining and experimenting a bit. Let's say I have N twitter users and what I want to find это общая тема, о которой они пишут (на основе твитов). Тогда я хочу дать больше ...
вопрос задан: 6 January 2011 02:00
0
ответов

Кластеризация данных с древовидной структурой

Предположим, нам даны данные в полуструктурированном формате в виде дерева. Например, дерево может быть сформировано как действительный документ XML или как действительный документ JSON. Вы можете представить, что это похоже на шепелявый S -...
вопрос задан: 12 December 2010 15:35
0
ответов

Кластеризация ~ 100 000 коротких строк в Python

Я хочу сгруппировать ~ 100 000 коротких строк чем-то вроде расстояния q-грамм или простого "расстояния мешка" или, возможно, расстояния Левенштейна в Python . Я планировал заполнить матрицу расстояний (100000 ...
вопрос задан: 22 November 2010 04:45
0
ответов

Механизмы и фреймворки интеллектуального анализа данных? [закрыто]

Какие механизмы и фреймворки интеллектуального анализа данных с открытым исходным кодом или бесплатно вы знаете и используете для текстовых данных? Спасибо за любой совет!
вопрос задан: 18 November 2010 00:53
0
ответов

Модульная кластеризация Ньюмана для графов

Меня интересует выполнение алгоритма модульной кластеризации Ньюмана на большом графе. Если вы можете указать мне на библиотеку (или пакет R и т. Д.), Которая ее реализует, я был бы очень благодарен. best ~ lara
вопрос задан: 24 September 2010 21:24
0
ответов

Кластеризация с матрицей расстояний

У меня есть (симметричная) матрица M, которая представляет расстояние между каждой парой узлов. Например, ABCDEFGHIJKL А 0 20 20 20 40 60 60 60100120120120 ...
вопрос задан: 16 September 2010 09:01
0
ответов

Онлайн-кластеризация k-средних

Есть ли онлайн-версия алгоритма кластеризации k-средних? Под онлайн я подразумеваю, что каждая точка данных обрабатывается последовательно, по одной при входе в систему, что позволяет экономить время вычислений, когда ...
вопрос задан: 13 September 2010 08:26
0
ответов

MATLAB kMeans не всегда сходится к глобальным минимумам

Я написал алгоритм кластеризации k-средних в MATLAB, и я подумал, что попробую его против MATLAB, встроенных в kmeans (X, k). Однако для очень простой настройки четырех кластеров (см. Рисунок) MATLAB kMeans не ...
вопрос задан: 7 September 2010 21:55
0
ответов

permuting the rows and columns of a matrix for clustering [closed]

i have a distance matrix that is 1000x1000 in dimension and symmetric with 0s along the diagonal. i want to form groupings of distances (clusters) by simultaneously reordering the rows and columns of ...
вопрос задан: 4 September 2010 05:35