0
ответов

важность PCA или SVD в машинном обучении

Все это время (особенно в конкурсе Netflix) я всегда сталкиваюсь с этим блогом (или форумом таблицы лидеров), где они упоминают, как применение простого шага SVD к данным помогло их в уменьшении разреженности в ...
вопрос задан: 6 March 2012 19:00
0
ответов

Ассоциативный поиск с большим количеством маленьких наборов данных

У меня есть большое количество (100-150) маленьких (примерно 1 кбайт) наборов данных. Мы будем называть их "хорошими" наборами данных. У меня также есть такое же количество "плохих" наборов данных. Теперь я ищу программное обеспечение (или, возможно, ..
вопрос задан: 4 March 2012 13:10
0
ответов

Weka GUI - недостаточно памяти, не загружается?

Эта же установка Weka загружалась для меня в прошлом. Я просто пытаюсь загрузить графический интерфейс Weka GUI (двойной щелчок на значке) и получаю следующую ошибку. Как я могу ее исправить? OutOfMemory Не ...
вопрос задан: 6 February 2012 17:48
0
ответов

Алгоритм рекомендаций (и реализация) для поиска похожих элементов и пользователей

У меня есть база данных из около 700 тыс. пользователей вместе с элементами, которые они смотрели / слушали / прочитал / купил / и т. д. Я хотел бы создать механизм рекомендаций, который рекомендует новые элементы на основе того, какие пользователи…
вопрос задан: 19 January 2012 20:09
0
ответов

Поиск фраз из 2 и 3 слов с помощью пакета R TM

Я пытаюсь найти код, который действительно работает, чтобы найти наиболее часто используемые фразы из двух и трех слов в пакете интеллектуального анализа текста R (возможно, для него есть другой пакет этого я не знаю). У меня ...
вопрос задан: 17 January 2012 16:53
0
ответов

Вычисление важности пользователя или «центральности взаимодействия» по подписчикам пользователя?

Я хочу знать, как я могу найти интересные отношения между учетными записями пользователей, такими как наиболее подключенные или наиболее ценные пользователи, на основе их связей с другими. Ниже у меня есть две таблицы. Я ...
вопрос задан: 16 January 2012 16:51
0
ответов

Техника вычисления частоты прилагательных

Мне нужно вычислить частоту слов заданного набора прилагательных в большом наборе отзывов службы поддержки клиентов. Однако я не хочу включать те прилагательные, которые отрицаются. Например, предположим, что мой список ...
вопрос задан: 16 January 2012 01:31
0
ответов

Прогнозирование значений с помощью алгоритма кластеризации k-средних

Я возился с машинным обучением и написал реализацию алгоритма K-средних на Python. Он берет двухмерные данные и организует их в кластеры. У каждой точки данных также есть ...
вопрос задан: 28 November 2011 09:32
0
ответов

Объединение различных сходств для создания одного окончательного сходства

Я новичок в системах интеллектуального анализа данных и рекомендаций, теперь пытаюсь создать что-то вроде системы rec для пользователей, у которых есть такие параметры: город образование интерес. Чтобы вычислить сходство между ...
вопрос задан: 20 November 2011 13:28
0
ответов

Матрица сходства -> алгоритм векторов признаков?

Если у нас есть набор из M слов, и мы знаем сходство значений каждой пары слов заранее (иметь матрицу сходства M x M), какой алгоритм мы можем использовать для создания одного k-мерного бита ...
вопрос задан: 12 October 2011 09:52
0
ответов

НЛП и машинное обучение для анализа настроений [закрыто]

Я пытаюсь написать программу, которая принимает текст (статью) в качестве входных данных и выводит полярность этого текста, независимо от его положительного или отрицательного настроения. Я много читал о различных подходах ...
вопрос задан: 4 October 2011 05:05
0
ответов

pull-only repo's 'git status' говорит, что ветвь опережает происхождение/мастер. Почему?

Вот ситуация: $ git status # On branch master # Ваша ветвь опережает «origin/master» на [x] commits. # Уже есть несколько вопросов об этом на SO, но ни один, кажется, не...
вопрос задан: 9 September 2011 17:43
0
ответов

Какие бесплатные/платные поисковые API позволяют осуществлять программный запрос и кэшировать/хранить полученные данные?

Если вы провели серьезные исследования поисковых API, вы знаете, что большинство из них имеют огромное количество ограничений TOS/TOU, которые делают их практически невозможными для использования во всем, кроме самого глупого ...
вопрос задан: 31 August 2011 23:15
0
ответов

Как мне собрать данные с веб-сайта, который использует AJAX, с Perl?

Это может показаться немного назад, но я хочу использовать Perl (и, если возможно, Curl), чтобы получать данные с сайта, который использует Ajax для заполнения HTML-оболочки информацией. Как мне сделать эти вызовы Javascript ...
вопрос задан: 22 August 2011 21:24
0
ответов

Есть ли хороший способ выполнить этот тип добычи?

Я пытаюсь найти точки, которые находятся ближе всего в пространстве в X и Y направления (образец набора данных приведен в конце), и я ищу, есть ли более разумные подходы для этого, чем мои тривиальные (и. ..
вопрос задан: 16 August 2011 09:48
0
ответов

Концепции скрытого семантического анализа

Я читал об использовании разложения по сингулярным значениям (SVD) для выполнения скрытого семантического анализа (LSA) в корпусе текстов. Я понял, как это сделать, а также понимаю математические концепции SVD. Но ...
вопрос задан: 14 August 2011 21:49
0
ответов

Частое использование интеллектуального анализа наборов элементов для построения правил ассоциации?

Я новичок в этой области, а также в терминологии, поэтому, пожалуйста, не стесняйтесь предлагать, если я где-то ошибаюсь. У меня есть два таких набора данных: Набор данных 1: A B C 0 E А 0 С 0 0 A 0 C D E A 0 C 0 E Как я ...
вопрос задан: 13 August 2011 00:17
0
ответов

Реализация матрицы близости для кластеризации

Пожалуйста, я немного новичок в этой области, поэтому простите меня, если вопрос звучит тривиально или просто . У меня есть группа наборов данных (точнее, сумка слов), и мне нужно сгенерировать матрицу близости, используя ...
вопрос задан: 8 August 2011 20:57
0
ответов

Python, Scipy: построение троек с использованием большой матрицы смежности

Я использую матрицу смежности для представления сети друзей, которую можно визуально интерпретировать как Мэри 0 1 1 1 Джо 1 0 1 1 Боб 1 1 0 .. .
вопрос задан: 3 August 2011 19:15
0
ответов

Взаимосвязь между скрытым распределением Дирихле и кластеризацией документов

Я хотел бы пояснить взаимосвязь между скрытым распределением Дирихле (LDA) и общей задачей кластеризации документов. Анализ LDA имеет тенденцию выводить пропорции тем для каждого ...
вопрос задан: 29 July 2011 03:17
0
ответов

Существует ли хорошо спроектированная и поддерживаемая библиотека обучения дереву решений для Java?

Мне нужна библиотека обучения дереву решений для Java. Я просмотрел и jaDTi, и Weka, но ни один из них не соответствует современным стандартам проектирования библиотек. Например, оба до сих пор используют не общий вектор ...
вопрос задан: 19 July 2011 11:06
0
ответов

Weka простые назначения кластеризации K-средних

У меня возникла, кажется, простая проблема, но я не могу найти ответа. Я новичок в Weka, но мне кажется, что я провел небольшое исследование по этому поводу (по крайней мере, прочитал первую пару ...
вопрос задан: 13 July 2011 21:32
0
ответов

K означает, что не известно количество кластеров? [дубликат]

Я пытаюсь применить k-среднее к набору многомерных точек данных (около 50 измерений), и мне было интересно, есть ли какие-либо реализации, которые находят оптимальное количество кластеров. Я ...
вопрос задан: 7 July 2011 18:58
0
ответов

случайный единичный вектор в многомерном пространстве

Я работаю над алгоритмом интеллектуального анализа данных, в котором я хочу выбрать случайный направление от определенной точки пространства функций. Если я выберу случайное число для каждого из n измерений из [-1,1] и ...
вопрос задан: 8 June 2011 18:36
0
ответов

Watter stel luislangbiblioteke moet ek leer vir AI en data-ontginning [gesluit]

Ek leer python en django . Ek moet uitgebreide dinge doen vir data-ontleding, statistieke, KI en data-ontginning. Daar is baie biblioteke beskikbaar. so ek wil weet watter SET ek moet leer. Tans het ek ...
вопрос задан: 8 June 2011 10:28
0
ответов

Алгоритм для обрабатывать агрегирование данных из нескольких источников, подверженных ошибкам

Я собираю списки концертов из нескольких разных источников, ни один из которых не является одновременно полным и точным. Некоторые данные поступают от пользователей (например, на last.fm) и могут быть неверными. Другие данные ...
вопрос задан: 25 May 2011 03:14
0
ответов

Кластеризация K-средних WEKA

Кто-нибудь может объяснить, что на самом деле означает результат кластеризации K-средних в WEKA. Например, kMeans Количество итераций: 9 Сумма квадратов ошибок в кластере: 9434.911100488926 Отсутствует ...
вопрос задан: 16 May 2011 06:23
0
ответов

Есть ли в TeamCity способ просмотреть отчет о тестах, заказанных наиболее часто неудачными за всю историю?

У нас есть несколько ненадежных тестов - ненадежных по экологическим причинам. Мы хотели бы увидеть историю того, какие тесты терпят неудачу чаще всего, чтобы мы могли понять, почему и исправить среду ...
вопрос задан: 12 May 2011 08:46
0
ответов

Случайность в искусственном интеллекте и машинном обучении

Этот вопрос пришел мне в голову, когда я работал над двумя проектами в области искусственного интеллекта и машинного обучения. Что, если я создаю модель (например, классификационную нейронную сеть, K-NN и т. Д.), И эта модель использует некоторую функцию
вопрос задан: 5 May 2011 01:32
0
ответов

Java text clustering library

Which of the data mining java libraries can do text clusterization?
вопрос задан: 2 May 2011 11:12