0
ответов

Как обучить идентификатор распознавателя именованных сущностей в OpenNLP?

Хорошо, у меня есть следующий код для обучения идентификатору NER из OpenNLP FileReader fileReader = new FileReader (" train.txt "); ObjectStream fileStream = новый PlainTextByLineStream (fileReader); ...
вопрос задан: 25 July 2013 18:13
0
ответов

Есть ли микроформат для маркировки предложений, слов, частей речи и т. Д.

Есть ли микроформат для основного процесса естественного языка, который имеет теги для предложений, слов, частей речи и т. Д. ? Я искал в Интернете, но не смог найти никого.
вопрос задан: 29 May 2013 06:20
0
ответов

Перефразирование для задач Math Word (изменение структуры предложений без Изменение смысла)

Я работаю над структурой упражнения Khan Academy, а более конкретно, словных задач. При выполнении слов проблемных упражнений, студенты часто получают то же самое слово, только с номерами и именами ...
вопрос задан: 21 May 2013 19:43
0
ответов

API для обработки естественного языка в Android

Я пытаюсь сделать приложение для Android, похожее на приложение на этом сайте. Дело в том, что я новичок в области обработки естественного языка. Я не хочу многого добиться, просто...
вопрос задан: 21 May 2013 19:38
0
ответов

Словари анализа настроений

Мне было интересно, знает ли кто-нибудь, где я могу получить словари положительных и отрицательных слов. Я изучаю анализ настроений, и это его важная часть.
вопрос задан: 13 May 2013 10:54
0
ответов

Как анализировать сообщения twitters? (улучшение моего алгоритма)

У меня появилась хорошая идея для реализации. Я назвал ее FixTheUnFixed Идея заключается в следующем: представьте, что вы едете на машине или путешествуете по всему миру, и когда вы видите какое-то препятствие или повреждение - разбитый фонарь, ...
вопрос задан: 29 April 2013 15:50
0
ответов

Почему получаются разные результаты при выводе темы MALLET для одного и пакета документов?

Я пытаюсь выполнить моделирование темы LDA с помощью Mallet 2.0.7. Я могу обучить модель LDA и получить хорошие результаты, судя по результатам тренировки. Кроме того, я могу использовать встроенный в ...
вопрос задан: 3 April 2013 23:29
0
ответов

Почему векторная нормализация может повысить точность кластеризации и классификации?

В Mahout in Action описано, что нормализация может немного повысить точность. Может кто-нибудь объяснить причину, спасибо!
вопрос задан: 3 April 2013 01:08
0
ответов

Грамматика голландского языка в Python NLTK

Я работаю над корпусом голландского языка и хочу знать, встроена ли в NLTK голландская грамматика, поэтому я может разобрать мои предложения? Вообще NLTK работает только на английском? Я знаю, что в нем есть голландский язык Alpino ...
вопрос задан: 22 March 2013 18:42
0
ответов

Частота слов в строках в Postgres?

Можно ли определить отдельные слова и количество для каждого из полей, содержащих текстовые строки в Postgres?
вопрос задан: 18 March 2013 02:17
0
ответов

Как проверить правильность предложения (простой проверкой грамматики в Python)?

Как проверить правильность предложения в Python? Примеры:Я люблю Stackoverflow -Правильно Мне нравится Stackoverflow -Неверно
вопрос задан: 12 March 2013 04:41
0
ответов

Преобразовать по одному документу на строку в формат Blei lda-c / dtm для тематического моделирования?

Я провожу скрытый анализ Дирихле для некоторых исследований и постоянно сталкиваюсь с проблемой. Большинство программ lda требует, чтобы документы были в формате doclines, то есть в формате CSV или другом файле с разделителями, в котором ...
вопрос задан: 25 February 2013 09:09
0
ответов

определение границ предложений php

Я хотел бы разделить текст на предложения в PHP. В настоящее время я использую регулярное выражение, которое дает точность ~ 95% и хотелось бы улучшить его, используя лучший подход. Я видел инструменты НЛП, которые делают это в ...
вопрос задан: 24 February 2013 12:08
0
ответов

что такое выход MeCab и набор тегов?

Может ли кто-нибудь просветить меня по поводу вывода MeCab по умолчанию? какую аннотацию выводит MeCab и где я могу найти набор тегов для морфо-анализатора http://mecab.sourceforge.net/ может кто-нибудь расшифровать ...
вопрос задан: 5 February 2013 02:56
0
ответов

Как выполнить Python split () на языках (например, китайском), которые не используют пробелы в качестве разделителя слов?

Я хочу разбить предложение на список слов. Для английского и европейского языков это просто, просто используйте split () >>> «Это предложение.». Split () ["Это", "есть", "а", "предложение".] Но я ...
вопрос задан: 4 February 2013 19:40
0
ответов

Как получить номер предложения из ввода?

Кажется, трудно определить границу предложения в тексте. Кавычки вроде.!? может использоваться для разграничения предложений, но не настолько точен, так как могут быть двусмысленные слова и цитаты, такие как USA или ...
вопрос задан: 15 January 2013 11:42
0
ответов

Извлечение существительного + существительного или (прил | существительное) + существительное из текста

Я хотел бы узнать, можно ли извлечь существительное + существительное или (прил | существительное) + существительное в пакете R openNLP? То есть я хотел бы использовать лингвистическую фильтрацию для извлечения кандидатных словосочетаний. Не могли бы вы
вопрос задан: 2 December 2012 20:46
0
ответов

Устройство тегов POS для корейского, тайского и индонезийского языков

Может ли кто-нибудь порекомендовать устройство для тегов POS с открытым исходным кодом для корейского, индонезийского, тайского и вьетнамского языков? Это я могу использовать для маркировки данных корпуса, которые у меня есть в настоящее время. (например
вопрос задан: 20 November 2012 06:27
0
ответов

Any tools to programmatically convert Japanese sentence into its romaji (phonetical reading)? [closed]

Input: 日本が好きです. Output: Nippon ga sukidesu. Phonetical reading is unfortunately not available through Google Translate API.
вопрос задан: 30 October 2012 02:57
0
ответов

为什么将这些词视为停用词?

我在自然语言处理中没有正式背景,想知道NLP方面是否有人可以对此有所启发。 我正在使用NLTK库,当时我...
вопрос задан: 26 October 2012 00:11
0
ответов

Что такое подсчет ngram и как его реализовать с помощью nltk?

Я читал статью, в которой в качестве функции для классификатора используется число ngram, и мне было интересно, что именно это означает. Пример текста: "Lorem Ipsum Dolor Sit Amet, Contetur Sadipscing Elitr, Sed Diam" Я ...
вопрос задан: 10 October 2012 14:01
0
ответов

есть ли какой-нибудь стеммер для индийского языка [закрыто]

есть ли какие-либо реализации стеммеров для индийских языков, например (хинди, телугу) ....
вопрос задан: 8 October 2012 04:30
0
ответов

Понимание оценки коллокации NLTK для биграмм и триграмм

Предпосылки: я пытаюсь сравнить пары слов, чтобы увидеть, какая пара "более вероятна" "на американском английском, чем другая пара. Мой план состоял в / состоял в том, чтобы использовать средства сопоставления в NLTK для оценки слов ...
вопрос задан: 5 October 2012 18:24
0
ответов

Какой инструмент для извлечения фраз является современным?

Мне известны следующие инструменты с открытым исходным кодом, но я не нашел никаких сравнений того, насколько они хороши соответственно. Инструменты с готовым извлечением фраз: KEA MAUI (http://code.google.com/p/maui-...
вопрос задан: 3 October 2012 10:38
0
ответов

Как Apple находит дату, время и адреса в электронных письмах?

В почтовом клиенте iOS, когда электронное письмо содержит дату, время или место, текст становится гиперссылкой, и можно создать встречу или посмотреть на карте, просто нажав на ссылку. Это не ...
вопрос задан: 30 September 2012 20:36
0
ответов

Создание N-грамма из предложения

Как сгенерировать n-грамм строки, например: String Input = "Это моя машина." Я хочу сгенерировать n-грамм с помощью этого ввода: Input Ngram size = 3 Output should be: This является мой машина Это мой моя машина ...
вопрос задан: 18 September 2012 14:02
0
ответов

nltk токенизация и сокращения

Я размечаю текст с помощью nltk, просто предложения загружаются в токенизатор wordpunct _. Это разделяет сокращения (, т.е. 'не' на 'дон' +" ' "+'т' ), но я хочу сохранить их как одно слово. Я совершенствую свои методы для...
вопрос задан: 31 August 2012 11:15
0
ответов

наиболее эффективное расстояние редактирования для выявления опечаток в именах?

Алгоритмы расстояния редактирования дают меру расстояния между двумя строками. Вопрос :, какая из этих мер будет наиболее уместной для обнаружения двух разных имен людей, которые на самом деле являются...
вопрос задан: 12 August 2012 09:11
0
ответов

TF *IDF для поисковых запросов

Итак, я следил за этими двумя постами на TF *IDF, но немного запутался:http://css.dzone.com/articles/machine-learning-text-featureПо сути, я хочу создать поисковый запрос, содержащий...
вопрос задан: 11 August 2012 02:44
0
ответов

R, определяющее строку/документ/корпус

Я пытаюсь сделать некоторые выводы в R, но, похоже, он работает только с отдельными документами. Моя конечная цель — матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример :...
вопрос задан: 9 August 2012 04:32