0
ответов

Есть ли какая-нибудь библиотека статистической обработки естественного языка для Haskell? [закрыто]

В настоящее время я читаю «Обработку естественного языка для работающего программиста» (книга в стадии разработки http://nlpwp.org/) и задаюсь вопросом, есть ли приличная библиотека для статистического естественного языка ...
вопрос задан: 26 January 2011 18:58
0
ответов

Способы хранения и доступа к большим (~ 10 ГБ) спискам в Python?

У меня есть большой набор строк, которые я использую для исследование обработки естественного языка, и я хотел бы иметь хороший способ сохранить его на Python. Я мог бы использовать pickle, но загрузка всего списка в память могла бы ...
вопрос задан: 24 January 2011 02:31
0
ответов

Что такое чанкер в обработке естественного языка?

Кто-нибудь знает, что такое чанкер в контексте обработки текста и как он используется?
вопрос задан: 21 January 2011 10:54
0
ответов

Как я могу программно сгенерировать соответствующие теги для базы данных URL-адресов?

Я пишу программу чтения RSS на python в качестве учебного упражнения, и мне бы очень хотелось иметь возможность добавлять теги отдельные записи с ключевыми словами для поиска. К сожалению, большинство реальных каналов не ...
вопрос задан: 17 January 2011 05:28
0
ответов

Библиотека OCR с открытым исходным кодом для арабского языка [закрыто]

Я искал библиотеку OCR - оптимально она была бы с открытым исходным кодом - которую я мог бы использовать для некоторых арабских PDF-файлов. Погуглить ничего полезного не дало. Мне интересно, знает ли кто-нибудь ...
вопрос задан: 14 January 2011 21:33
0
ответов

реализация классификатора перцептрона

Привет, я новичок в Python и НЛП. Мне нужно реализовать классификатор перцептронов. Я искал на некоторых сайтах, но не нашел достаточно информации. На данный момент у меня есть несколько документов, в которых я ...
вопрос задан: 12 January 2011 18:52
0
ответов

Как быстрее подсчитывать слова в nltk plaintextcorpus?

У меня есть набор документов, и я хочу вернуть список кортежей, где каждый кортеж имеет дату данного документа и количество раз, когда данный поисковый запрос встречается в этом документе. Мой код (ниже) ...
вопрос задан: 11 January 2011 05:44
0
ответов

Понимание оценки релевантности OpenCalais

Я пытаюсь понять, какой показатель релевантности возвращает opencalais для каждой сущности? Что это означает и как это толковать? Буду благодарен за понимание ...
вопрос задан: 8 January 2011 12:15
0
ответов

Определение того, является ли текст на английском языке (сразу)

Я ищу простой способ определить, является ли короткий отрывок текста несколькими предложениями , английский или нет. Мне кажется, что эта проблема намного проще, чем попытка обнаружить произвольный язык. Является ли ...
вопрос задан: 5 January 2011 14:41
0
ответов

Расстояние Хэмминга против расстояния Левенштейна

Для проблемы, над которой я работаю, нахождение расстояний между двумя последовательностями до Определите их сходство, порядок следования очень важен. Однако последовательности, которые у меня есть, не имеют одинаковой длины ...
вопрос задан: 3 January 2011 21:29
0
ответов

понимание структуры корпуса semcor h

Я изучаю НЛП. Я сейчас играю с устранением неоднозначности слова. Я планирую использовать корпус semcor в качестве обучающих данных, но у меня проблемы с пониманием структуры xml. Я пробовал погуглить, но ...
вопрос задан: 3 January 2011 10:27
0
ответов

Эффективный контекстно-свободный синтаксический анализатор грамматики, предпочтительно совместимый с Python

Мне нужно разобрать небольшое подмножество английского языка для одного из моих проектов, описанного как контекстно-свободная грамматика с ( 1-уровневые) структуры функций (пример), и мне нужно сделать это эффективно. Прямо сейчас я '...
вопрос задан: 28 December 2010 01:06
0
ответов

Инструменты программирования NLP с использованием PHP?

С момента появления больших веб-приложений поиск данных (и выполнение его молниеносно и точно) был одним из самые важные проблемы в веб-приложениях. Какое-то время я работал ...
вопрос задан: 17 December 2010 05:24
0
ответов

Пытаетесь использовать MEGAM в качестве NLTK ClassifierBasedPOSTagger?

В настоящее время я пытаюсь создать универсальный (или настолько общий, насколько это практически возможно) POS-теггер с NLTK. Я баловался коричневым корпусом и корпусом treebank для обучения, но, вероятно, остановлюсь на ...
вопрос задан: 17 December 2010 02:29
0
ответов

Какие примеры приложений / библиотек машинного перевода разрабатываются в настоящее время? [закрыто]

Мне интересно узнать больше о машинном переводе. Хотя у меня есть несколько очень интересных книг по этому поводу, я хотел бы увидеть некоторые реальные приложения теорий МП. Я нашел парочку ...
вопрос задан: 15 December 2010 23:51
0
ответов

Библиотека обработки естественного языка для автоматической пометки (. NET)

Пусть кто-нибудь знает какие-либо хорошие библиотеки для .NET, которые могут помочь извлечь ключевые слова из блоков естественного языка. Я в основном пытаюсь вырезать стоп-слова и игнорировать времена, множественное число и ...
вопрос задан: 8 December 2010 10:31
0
ответов

1 миллион предложений для сохранения в БД - удаление нерелевантных английских слов

Я пытаюсь обучить наивный байесовский классификатор с извлечением положительных / отрицательных слов из настроение. пример: я обожаю этот фильм :)) ненавижу, когда идет дождь :( Идея в том, что я извлекаю позитив ...
вопрос задан: 24 November 2010 11:00
0
ответов

Как включить слова в качестве числового признака в классификацию

Как лучше всего использовать сами слова в качестве признаков в любом алгоритме машинного обучения? Проблема, которую я должен извлечь из определенного абзаца. Следует ли мне использовать ...
вопрос задан: 17 November 2010 17:13
0
ответов

Лучший алгоритмический подход к анализу настроений [закрыто]

Мое требование состоит в том, чтобы брать новостные статьи и определять, являются ли они положительными или отрицательными по предмету. Я использую подход, описанный ниже, но продолжаю читать, что НЛП может быть здесь полезно. Все ...
вопрос задан: 17 November 2010 12:30
0
ответов

Perl или анализ настроений в Java

Мне было интересно, знает ли кто-нибудь о хороших модулях Perl и / или классах Java для анализа настроений. Я читал о LingPipe, но в конечном итоге программу нужно будет использовать для коммерческого использования, поэтому ...
вопрос задан: 17 November 2010 11:36
0
ответов

Есть ли формальная грамматика для английского языка? [закрыто]

Я просматриваю веб-страницы в поисках грамматики английского языка, но нашел только несколько простых примеров, например: s -> np vp np -> det n vp -> v | v np det -> 'a' | 'the' n -> 'женщина' | 'человек' v -> ...
вопрос задан: 16 November 2010 18:42
0
ответов

Есть ли библиотека или веб-служба, обеспечивающая произношение для текста?

Есть ли библиотека или веб-служба, которая может сказать вам произношение строки? Я думаю о символьных языках, в которых произношение слова не очевидно из того, как оно написано.
вопрос задан: 12 November 2010 17:41
0
ответов

Найдите слова в длинном потоке символов. Автоматическая токенизация

Как найти правильные слова в длинном потоке символов? Входные данные: «Пересмотренный отчет о синтаксических теориях последовательного управления и состояния». Вывод Google: «Пересмотренный отчет о ...
вопрос задан: 8 November 2010 00:26
0
ответов

Synchronizing text and audio. Is there a NLP/speech-to-text library to do this?

I would like to synchronize a spoken recording against a known text. Is there a speech-to-text / natural language processing library that would facilitate this? I imagine I'd want to detect word ...
вопрос задан: 2 November 2010 03:22
0
ответов

Извлечение медицинской информации с помощью Python

Я медсестра и знаю python, но я не эксперт, просто использовал его для обработки последовательностей ДНК У нас есть больничные записи, написанные на человеческом языке, и я должен вставить эти данные в базу данных ...
вопрос задан: 25 October 2010 15:13
0
ответов

реализация словаря

Hii, я столкнулся с вопросом об использовании словаря, который может реализовывать функции автозаполнения, автокоррекции, проверки орфографии и т. Д. Я действительно хотел узнать, какие данные ...
вопрос задан: 24 October 2010 16:37
0
ответов

How to build a conceptual search engine?

I would like to build an internal search engine (I have a very large collection of thousands of XML files) that is able to map queries to concepts. For example, if I search for "big cats", I would ...
вопрос задан: 23 October 2010 12:03
0
ответов

Реализация производственного класса грамматики в C #

Грамматика по определению содержит продукты, пример очень простой грамматики: E -> E + E E -> n Я хочу реализовать класс Grammar в C #, но я не уверен, как хранить продукты, например ...
вопрос задан: 21 October 2010 14:54
0
ответов

Какие хорошие инструменты синтаксического анализа естественного языка для Perl?

Я слышал, что Perl часто используется для NLP, но я не могу найти почти никаких хороших инструментов NLP для Perl . Какие есть хорошие инструменты / ресурсы Perl NLP? У Python есть NLTK. В Java есть OpenNLP. Есть ли в Perl что-нибудь ...
вопрос задан: 12 October 2010 17:08
0
ответов

Стандартный анализатор Lucene против Snowball

Только начало работы с Lucene.Net. Я проиндексировал 100 000 строк с помощью стандартного анализатора, выполнил несколько тестовых запросов и заметил, что множественные запросы не возвращают результатов, если исходный термин был в единственном числе. Я .
вопрос задан: 7 October 2010 10:27