0
ответов

Ситуация интеллектуального анализа данных

Предположим, у меня есть данные как упомянуто ниже. 11:00 user1 Brush 11:05 AM user1 Prep Brakfast 11:10 AM user1 съесть завтрак 11:15 AM user1 Принять ванну 11:30 AM user1 Уйти в офис 12:00 user2 Brush 12: ...
вопрос задан: 10 January 2013 06:48
0
ответов

Пакет R tm создает матрицу из N наиболее часто встречающихся терминов

У меня есть termDocumentMatrix, созданный с использованием пакета tm в R. Я пытаюсь создать матрицу/фрейм данных, в которой есть 50 наиболее часто встречающихся терминов. Когда я пытаюсь преобразовать в матрицу, я получаю это...
вопрос задан: 16 July 2012 16:42
0
ответов

Используете LIBSVM grid.py для несбалансированных данных?

У меня проблема трех классов с несбалансированными данными (90%, 5%, 5% ). Теперь я хочу обучить классификатор с помощью LIBSVM. Проблема в том, что LIBSVM оптимизирует параметры gamma и Cost для оптимального...
вопрос задан: 10 July 2012 09:10
0
ответов

Выберите или сгенерируйте канонический вариант из нескольких предложений

Я работаю с API, который сопоставляет мои запросы GTIN/EAN с данными о продукте. Поскольку возвращаемые данные поступают из каналов торговых продуктов, почти повсеместно используется следующее: Множественные результаты ...
вопрос задан: 13 June 2012 23:34
0
ответов

Удаление «пустого» символа из корпуса документов в R?

Я использую пакеты tm и lda в R для тематического моделирования свода новостных статей. Тем не менее, я получаю проблему «не символа -», представленную как «», которая портит мои темы. Вот мой рабочий процесс :...
вопрос задан: 7 May 2012 20:10
0
ответов

Подсчет слогов

Я хочу присвоить несколько разных оценок читабельности тексту в R, например, Flesh Kincaid. Кто-нибудь знает, как с помощью R разбивать слова на слоги? Мне не обязательно нужен ...
вопрос задан: 2 May 2012 20:40
0
ответов

Реализация альтернативных форм LDA

Я использую скрытое распределение Дирихле с корпусом новостных данных из шести различных источников. Меня интересует эволюция темы, появление, и я хочу сравнить, насколько источники похожи и различны...
вопрос задан: 11 April 2012 19:20
0
ответов

как можно увеличить размер облаков слов в R

, пытаясь воспроизвести здесь пример; http://onertipaday.blogspot.com/2011/07/word-cloud-in-r.html Нужна помощь в выяснении того, как увеличить площадь облака слов. Изменение высоты и ...
вопрос задан: 12 February 2012 00:59
0
ответов

Поиск фраз из 2 и 3 слов с помощью пакета R TM

Я пытаюсь найти код, который действительно работает, чтобы найти наиболее часто используемые фразы из двух и трех слов в пакете интеллектуального анализа текста R (возможно, для него есть другой пакет этого я не знаю). У меня ...
вопрос задан: 17 January 2012 16:53
0
ответов

Явный семантический анализ

Я наткнулся на термин под названием «Явный семантический анализ», который использует Википедию в качестве справочного материала, находит сходство в документах и ​​классифицирует их (поправьте меня если я ошибаюсь). ...
вопрос задан: 3 January 2012 03:33
0
ответов

Алгоритм (или библиотека C #) для определения «ключевых слов» в наборе сообщений? [закрыто]

Я хочу создать список из ~ 6 ключевых слов (или даже лучше: пары ключевых словосочетаний) для каждого сообщения на форуме сообщений. В основном ключевые слова используются для замены строк темы в некоторых случаях. Для ...
вопрос задан: 3 January 2012 01:55
0
ответов

фонетическое написание в Python и Java [закрыто]

Я пытаюсь создать систему, которая принимает текст и выводит фонетическое написание слов этого текста. Есть идеи, какие библиотеки можно использовать в Python и Java?
вопрос задан: 28 November 2011 21:26
0
ответов

Определить язык текста в R [закрыто]

В R У меня есть список твитов, и я хотел бы оставить только те, которые на английском языке. Мне интересно, знает ли кто-нибудь из вас пакет R, который обеспечивает простой способ определения языка строки. ...
вопрос задан: 10 November 2011 11:11
0
ответов

неконтролируемое распознавание именованных объектов (NER) с настраиваемым словарем для предложений перекрестных ссылок в Java

Я ищу библиотеку Java, которая может выполнять распознавание именованных объектов (NER) с настраиваемым контролируемым словарем, без сначала нужны помеченные данные для обучения. Я искал кое-что на SE, но большинство вопросов ...
вопрос задан: 5 October 2011 15:02
0
ответов

Полнотекстовые PDF-файлы для статей PubMed

Во время работы над проектом мне нужно загрузить и обработать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю ввести набор идентификаторов PubMed и загрузок ...
вопрос задан: 12 September 2011 23:48
0
ответов

Концепции скрытого семантического анализа

Я читал об использовании разложения по сингулярным значениям (SVD) для выполнения скрытого семантического анализа (LSA) в корпусе текстов. Я понял, как это сделать, а также понимаю математические концепции SVD. Но ...
вопрос задан: 14 August 2011 21:49
0
ответов

Word Net - Синонимы Word и связанные конструкции слов - Java или Python

Я хочу использовать WordNet для поиска коллекции похожих терминов из базового набора терминов. Например, слово «разочарованный» - потенциальными синонимами могут быть: напуганный, мрачный, сдержанный, пессимистический. ...
вопрос задан: 8 August 2011 15:19
0
ответов

Взаимосвязь между скрытым распределением Дирихле и кластеризацией документов

Я хотел бы пояснить взаимосвязь между скрытым распределением Дирихле (LDA) и общей задачей кластеризации документов. Анализ LDA имеет тенденцию выводить пропорции тем для каждого ...
вопрос задан: 29 July 2011 03:17
0
ответов

ר טעקסט מיינינג פּעקל אין אַ יגזיסטינג קאָרפּוס

, איך איז געווען וואַנדערינג אויב עס איז קיין געלעגנהייַט אַז ר 'ס טעקסט מיינינג פּעקל האט די פאלגענדע שטריך: myCorpus <- Corpus (DirSource (), קאָנטראָל = ...) # לייג דאָקס ...
вопрос задан: 7 July 2011 21:03
0
ответов

Python или Java для обработки текста (интеллектуальный анализ текста, поиск информации, обработка естественного языка) [закрыто]

Я скоро начну новый проект, в котором я собираюсь сделать много задач обработки текста, таких как поиск, категоризация / классификация, кластеризация и т. д. Будет огромное количество ...
вопрос задан: 18 May 2011 07:25
0
ответов

Каков хороший подход для извлечения ключевых слов из отправленного пользователем текста?

I ' m создание сайта, который позволяет пользователям разобраться в дебатах, графически представляя аргументы за и против конкретной проблемы. (Wrangl) Я хотел бы классифицировать эти дебаты, чтобы они были ...
вопрос задан: 21 March 2011 12:07