0
ответов

Определить, является ли предложение запросом

Как я могу определить, находится ли поисковый запрос в форма вопроса? Например, покупатель может выполнить поиск по запросу «как отследить свой заказ» (не обращайте внимания на вопросительный знак). Я предполагаю, что большинство прямых вопросов ...
вопрос задан: 4 May 2012 18:06
0
ответов

Регулярное выражение для токенизации английского текста

Что было бы лучшим регулярным выражением для токенизации английского текста? Под английским токеном я подразумеваю атом, состоящий из максимального числа символов, которые могут быть осмысленно использованы для целей НЛП ....
вопрос задан: 4 May 2012 17:54
0
ответов

Чистый текст из PDF-файлов

это скорее алгоритмический вопрос, а не конкретный языковой вопрос, поэтому я буду рад получить ответ на любом языке -, даже на псевдокоде, даже просто на идею. Вот моя проблема :Мне нужно...
вопрос задан: 3 May 2012 15:08
0
ответов

Несоответствие скрытого семантического анализа в Python

Я пытаюсь следовать статье Википедии о скрытом семантическом индексировании в Python, используя следующий код :documentTermMatrix = array ([[ 0., 1., 0., 1., 1., 0., 1.],...
вопрос задан: 2 May 2012 20:58
0
ответов

Набор инструментов обработки естественного языка для .NET [закрыто]

Не могли бы вы дать мне несколько наборов инструментов и библиотек для обработки естественного языка в .NET. Существуют ли такие инструменты, как UIMA для .NET?
вопрос задан: 1 May 2012 18:38
0
ответов

Отрицание предложений с помощью тегов POS -

Я пытаюсь найти способ отрицать предложения на основе Маркировка POS -. Пожалуйста, учтите, что :включает _один раз 'class.postagger.php'; function negate ($sentence ){ $tagger = new PosTagger ('includes/lexicon.txt'...
вопрос задан: 1 May 2012 13:24
0
ответов

Нечеткое сравнение строк

То, что я пытаюсь сделать, — это программа, которая читает файл и сравнивает каждое предложение с исходным предложением. Предложение, полностью соответствующее оригиналу, получит...
вопрос задан: 30 April 2012 11:46
0
ответов

Как пометить текст на французском языке и разбить его на фрагменты с помощью NLTK и Python?

У меня есть более 30 000 статей на французском языке в файле JSON. Я хотел бы провести некоторый анализ текста как по отдельным статьям, так и по набору в целом. Прежде чем идти дальше, я начну с...
вопрос задан: 29 April 2012 14:36
0
ответов

Нужен модуль python для создания основы текстовых документов

Мне нужен хороший модуль python для создания основы текстовых документов на этапе предварительной -обработки. Я нашел этот http://pypi.python.org/pypi/PyStemmer/1.0.1, но не могу найти документацию по ссылке...
вопрос задан: 29 April 2012 03:11
0
ответов

Когда важны n -граммов (n>3 ), а не просто биграммы или триграммы?

Мне просто интересно, каково использование n -граммов (n>3)(и частоты их появления ), учитывая вычислительные затраты на их вычисление. Существуют ли какие-либо приложения, в которых биграммы или триграммы...
вопрос задан: 24 April 2012 08:41
0
ответов

Как определить, произошло ли событие/действие из текста?

Мне интересно, есть ли для этого техника НЛП/МО. Предположим, мне дан набор предложений, и я посмотрел фильм. Слышал, фильм отличный, надо посмотреть. Получил билеты на фильм. Я нахожусь в...
вопрос задан: 21 April 2012 16:13
0
ответов

Древовидная структура редактирования Wordnet

Я разрабатываю приложение, которое использует для своей работы концептуальную иерархию Wordnet. Я обнаружил, что некоторые слова, которые мне нужны, отсутствуют в базе данных. Есть ли API или инструмент, или любой другой способ, которым я могу...
вопрос задан: 19 April 2012 10:17
0
ответов

OpenNLP Name Finder

Я использую пример документа NameFinder API OpenNLP. После инициализации средства поиска имен документация использует следующий код для входного текста:для (строкового документа[][] :документов){ для (...
вопрос задан: 16 April 2012 19:33
0
ответов

Разбор слов в (префикс, корень, суффикс) в Python

Я пытаюсь создать простой парсер для некоторых текстовых данных. (Текст на языке, для которого в NLTK нет синтаксических анализаторов.) По сути, у меня есть ограниченное количество префиксов, которые могут быть любыми...
вопрос задан: 14 April 2012 19:03
0
ответов

Реализация альтернативных форм LDA

Я использую скрытое распределение Дирихле с корпусом новостных данных из шести различных источников. Меня интересует эволюция темы, появление, и я хочу сравнить, насколько источники похожи и различны...
вопрос задан: 11 April 2012 19:20
0
ответов

Обнаружение и / или идентификация логической ошибки с помощью обработки естественного языка

Существует ли пакет или методология для обнаружения некорректных логических аргументов в тексте? Я надеялся на то, что будет работать для текста, который не написан в академической среде (...
вопрос задан: 6 April 2012 17:36
0
ответов

Как оценить инструмент реферирования текста?

Я написал систему, обобщающую длинный документ, содержащий тысячи слов. Существуют ли какие-либо нормы того, как следует оценивать такую ​​систему в контексте опроса пользователей? Короче говоря, есть ли...
вопрос задан: 26 March 2012 20:26
0
ответов

Создание лемматизатора: оптимизация скорости

Я создаю лемматизатор на питоне. Поскольку мне нужно, чтобы он работал в реальном времени/обрабатывал довольно большой объем данных, скорость обработки имеет существенное значение. Данные: у меня есть все возможные суффиксы, которые связаны с ...
вопрос задан: 23 March 2012 17:42
0
ответов

Обнаружение пользователя за несколькими учетными записями по словам, которые он использует

Я хотел бы создать алгоритм, чтобы различать людей, пишущих на форуме под разными никами. Цель состоит в том, чтобы обнаружить людей, регистрирующих новый аккаунт на флейм-форуме анонимно, а не под ...
вопрос задан: 18 March 2012 11:38
0
ответов

Интересный проект в стиле НЛП/машинного обучения — анализ политик конфиденциальности

Я хотел получить информацию по интересной проблеме, которую мне поручили. Задача состоит в том, чтобы проанализировать сотни, а в конечном итоге и тысячи политик конфиденциальности и определить их основные характеристики. Ибо...
вопрос задан: 14 March 2012 19:57
0
ответов

R count количество запятых и строки

У меня есть строка: str1 <- "Это строка, которую я написал, чтобы задать вопрос, или, по крайней мере, пытался." Как бы я: 1) подсчитал количество запятых 2) подсчитал количество вхождений ...
вопрос задан: 12 March 2012 16:57
0
ответов

Замена порядковых номеров

В настоящее время я ищу способ заменить такие слова, как первый, второй, третий,... соответствующим представлением порядкового номера ( 1, 2, 3). Я гуглил всю последнюю неделю и не нашел...
вопрос задан: 10 March 2012 14:27
0
ответов

Интеллектуальная проверка орфографии

Я использую NHunspell для проверки строки на наличие орфографических ошибок, например: var words = content.Split(' '); строка[] неверна; используя (var орфопроверка = новый Hunspell (аффикс-файл, словарь-файл)) { ...
вопрос задан: 9 March 2012 18:00
0
ответов

Как узнать энтропию английского языка

Как узнать энтропию английского языка, используя вероятности отдельных символов языка?
вопрос задан: 7 March 2012 15:41
0
ответов

Инструменты для упрощения текста (Java) [закрыто]

Какой лучший инструмент для упрощения текста с помощью Java? Вот пример упрощения текста: Джон, который был генеральным директором компании, играл в гольф. ↓ Джон играл...
вопрос задан: 7 March 2012 10:54
0
ответов

Обучение HMM без присмотра в NLTK

Я просто пытаюсь провести очень простое обучение HMM без присмотра в nltk. Рассмотрим: import nltk тренер = nltk.tag.hmm.HiddenMarkovModelTrainer() из nltk.corpus импорт Гутенберга emma = gutenberg.words(...
вопрос задан: 5 March 2012 23:51
0
ответов

Визуализация лингвистического синтаксического дерева в браузере

Вводные данные: (1) представление дерева в квадратных скобках с помеченными внутренними узлами, например: (S (N John) (VP (V hit) (NP (D the ) (N ball)))) с выводом: (Независимо от того, пунктирные ли линии и ...
вопрос задан: 5 March 2012 06:00
0
ответов

How can I split a text into sentences using the Stanford parser?

How can I split a text or paragraph into sentences using Stanford parser? Is there any method that can extract sentences, such as getSentencesFromString() as it's provided for Ruby?
вопрос задан: 29 February 2012 05:52
0
ответов

Библиотека анализа тональности C++ [закрыто]

Мне нужна библиотека анализа тональности C++, которую я мог бы использовать в своем приложении. Что-то, что принимало бы в качестве аргумента текст, написанный человеком, и возвращало бы информацию о его настроении (положительно,...
вопрос задан: 26 February 2012 19:03
0
ответов

Указаны несовместимые начальный и максимальный размеры кучи

Эта ошибка возникает при запуске класса java с библиотекой NLP .... Ошибка при инициализации виртуальной машины Несовместимые начальный и максимальный размеры кучи указывают на любую идею, как я могу решить эту проблему ...
вопрос задан: 19 February 2012 15:23