0
ответов

Python или Java для обработки текста (интеллектуальный анализ текста, поиск информации, обработка естественного языка) [закрыто]

Я скоро начну новый проект, в котором я собираюсь сделать много задач обработки текста, таких как поиск, категоризация / классификация, кластеризация и т. д. Будет огромное количество ...
вопрос задан: 18 May 2011 07:25
0
ответов

USE (NLP) GATE TOOL FOR NAMED-ENTITY [closed]

Могу ли я использовать GATE http://gate.ac.uk/ в моей java-программе для извлечения именованных -организация. Если да, не могли бы вы привести какие-нибудь примеры или подсказать мне какие-нибудь источники. Спасибо
вопрос задан: 15 May 2011 10:48
0
ответов

Is there a way to convert a natural language date NSString to an NSDate

Say I have the NSString @"tomorrow" Is there any library that takes strings such as this and converts them into NSDates? I'm imagining/hoping for something like this: NSString* humanDate = @"...
вопрос задан: 4 May 2011 04:32
0
ответов

Multilingual spell checking with language detection

I'm working on spell checking of mixed language webpages, and haven't been able to find any existing research on the subject. The aim is to automatically detect language at a sentence level within ...
вопрос задан: 3 May 2011 17:54
0
ответов

Лучший способ освоить обработку естественного языка

В настоящее время я программист PHP и хотел бы узнать, как лучше всего узнать о НЛП, от теории к практике. Не имеет значения язык. Например: Theory Firt изучает основную грамматику. Затем ...
вопрос задан: 3 May 2011 08:46
0
ответов

Simple Natural Language Processing Startup for Java [duplicate]

I am willing to start developing a project on NLP. I dont know much of the tools available. After googling for about a month. I realized that openNLP can be my solution. Unfortunately i dont see any ...
вопрос задан: 29 April 2011 14:01
0
ответов

Карта слов для эмоций

Я ищу ресурс, похожий на WordNet. Тем не менее, я хочу иметь возможность найти положительное / отрицательное значение слова. Например: взятка - отрицательная предложение - положительное. Мне любопытно ...
вопрос задан: 25 April 2011 20:32
0
ответов

Распознавание именованных сущностей для NLTK в Python. Идентификация NE

мне нужно классифицировать слова по частям речи. Как глагол, существительное, наречие и т. Д. Я использовал nltk.word_tokenize () # для определения слова в предложении nltk.pos_tag () # чтобы идентифицировать части ...
вопрос задан: 18 April 2011 20:14
0
ответов

Фильтр шаблона POS?

Я написание кода, который повторяет набор тегов POS (сгенерированных pos_tag в NLTK) для поиска шаблонов POS. Соответствующие наборы POS-тегов сохраняются в списке для последующей обработки. Конечно, регулярное выражение -...
вопрос задан: 12 April 2011 01:49
0
ответов

Алгоритм компьютерного ИИ для написания предложений?

Я ищу информацию об алгоритмах обработки текстовых предложений или следования структуре при создании предложений, которые действительны на обычном человеческом языке например английский. Я хотел бы знать ...
вопрос задан: 8 April 2011 17:34
0
ответов

Распознавание именованных объектов с помощью Java

Я хотел бы использовать распознавание именованных объектов (NER) для поиска подходящих тегов для текстов в базе данных. Вместо использования таких инструментов, как NLTK или Lingpipe, я хочу создать свой собственный инструмент. Итак, мои вопросы: Какие .
вопрос задан: 6 April 2011 20:08
0
ответов

как использовать алгоритм Гейла-Черча в Python-NLTK?

Алгоритм штормовой церкви доступен в python-NLTK, но может ли кто-нибудь показать мне пример того, как вызвать функцию в сценарии python? Я понятия не имею, как это сделать. http: //code.google ....
вопрос задан: 6 April 2011 09:18
0
ответов

Проект с открытым исходным кодом извлечения терминов и анализа настроений [закрыто]

Я хочу извлечь важные термины из текста и создать набор терминов для конкретной предметной области. Затем я хочу узнать, как эти слова используются в тексте, положительно или отрицательно. Знаете ли вы какой-нибудь открытый исходный код ...
вопрос задан: 5 April 2011 16:46
0
ответов

Существует ли алгоритм, помогающий определить «основную тему» ​​предложения на английском языке?

Я пытаюсь выяснить, существует ли известный алгоритм, который может обнаруживать «ключевое понятие» предложения. Пример использования следующий: пользователь вводит предложение как запрос (курица на вкус как индейка?) m пытается выяснить, существует ли и
вопрос задан: 4 April 2011 21:36
0
ответов

Python: Токенизация с помощью фраз

У меня есть блоки текста, которые я хочу токенизировать, но Я не хочу использовать пробелы и знаки препинания для токенизации, что, по-видимому, является стандартом для таких инструментов, как NLTK. Есть определенные фразы, которыми я хочу быть ...
вопрос задан: 3 April 2011 20:56
0
ответов

Использование цепей Маркова (или чего-то подобного) для создания IRC-бота

Я попробовал Google и нашел немногое, что я мог понять. Я понимаю цепи Маркова на очень базовом уровне: это математическая модель, которая зависит только от предыдущего ввода для изменения состояний ... так что своего рода ...
вопрос задан: 31 March 2011 16:22
0
ответов

Как создать систему тегов, как в Stack Overflow или Quora

Я хочу создать систему тегов, как показано здесь, в Stack Overflow или на Quora. Это будет собственная модель, и я m планирую использовать этот плагин автозаполнения, чтобы помочь пользователям находить теги. У меня есть пара ...
вопрос задан: 30 March 2011 23:10
0
ответов

обобщать текст или упрощать текст [закрыто]

Есть ли какая-нибудь библиотека, предпочтительно на python, но, по крайней мере, с открытым исходным кодом, которая может обобщать или упрощать текст на естественном языке?
вопрос задан: 29 March 2011 21:56
0
ответов

Стэнфордский синтаксический анализатор: как извлечь зависимости?

Моя работа заключается в нахождении запроса (может быть существительное + глагол) в предложении, а затем извлекать объект. Пример: «кодирование - это иногда тяжелая работа». Мой запрос был бы: «кодирование есть». типизированные зависимости i ...
вопрос задан: 27 March 2011 15:11
0
ответов

Лемматизация слов с тегами POS с помощью NLTK?

У меня есть теги POS для некоторых слов с помощью nltk.pos_tag (), поэтому им присваиваются теги дерева. Я хотел бы лемматизировать эти слова, используя известные теги POS, но я не уверен, как это сделать. Я смотрел Wordnet ...
вопрос задан: 23 March 2011 19:19
0
ответов

исправление обработки естественного языка для объединенных слов

У меня есть текст, который был сгенерирован другой системой. Он объединил несколько слов вместе, что, как я полагаю, было своего рода побочным продуктом переноса слов. Так что что-то простое, например «собака», объединяется в «...
вопрос задан: 15 March 2011 23:41
0
ответов

Извлечение названия страны из сведений о принадлежности авторов

В настоящее время я изучаю возможность извлечения названия страны из сведений о принадлежности авторов (статьи PubMed). Мои образцы данных выглядят следующим образом: Департамент машиностроения и производства, национальный. ..
вопрос задан: 15 March 2011 21:06
0
ответов

Какой инструмент с открытым исходным кодом является наиболее точным для разделения предложений? [closed]

Мне нужно разбить текст на предложения. В настоящее время я играю с инструментом обнаружения предложений OpenNLP. Я также слышал об инструментах NLTK и Stanford CoreNLP. Какое наиболее точное английское предложение ...
вопрос задан: 14 March 2011 16:48
0
ответов

Как рассчитать точность и отзыв по тегам для POS-тегировщика?

Я использую некоторые основанные на правилах и статистические POS-тегеры, чтобы пометить корпус (около 5000 предложений) частями Речь (POS). Ниже приведен фрагмент моего тестового корпуса, в котором каждое слово отделено своим ...
вопрос задан: 10 March 2011 20:34
0
ответов

Моделирование тем с помощью молотка

Я использовал молоток для определения тем для текстового файла, содержащего 100 000 строк (около 34 МБ в формате молотка). Но теперь мне нужно запустить его для файла, содержащего миллион строк (около 180 МБ) ...
вопрос задан: 2 March 2011 14:35
0
ответов

Извлечение существительных из фазы существительного в NLP

Кто-нибудь, пожалуйста, скажите мне, как извлечь только существительные из следующего вывода: I токенизировали и проанализировали строку «Дайте мне обзор фильма» на основе заданной грамматики, используя следующие ...
вопрос задан: 28 February 2011 15:21
0
ответов

Кодирование для многоязычных файлов .py

Я пишу файл .py, который содержит строки из нескольких наборов символов, включая английский, испанский и русский. Например, у меня есть что-то вроде: string_en = "Быстрая коричневая лиса перепрыгнула ...
вопрос задан: 14 February 2011 17:00
0
ответов

Поиск структуры предложений естественного языка

Как лучше всего хранить и искать в базе данных деревьев структур предложений естественного языка? Используя English Treebank Parser OpenNLP, я могу получить достаточно надежный синтаксический анализ структуры предложений для ...
вопрос задан: 10 February 2011 16:19
0
ответов

Объединение токенизатора в грамматику и парсера с NLTK

Я просматриваю книгу NLTK и не могу что-то сделать это может показаться естественным первым шагом к построению хорошей грамматики. Моя цель - построить грамматику для определенного ...
вопрос задан: 1 February 2011 03:06
0
ответов

Можно ли использовать уникальный «литературный стиль» автора, чтобы идентифицировать его / ее как автора текста? [closed]

Представим, у меня есть два текста на английском языке, написанные одним и тем же человеком. Можно ли применить какой-нибудь алгоритм цепи Маркова для анализа каждого из них: создать своего рода отпечаток пальца на основе статистических данных ...
вопрос задан: 28 January 2011 11:49