0
ответов

Когда важны n -граммов (n>3 ), а не просто биграммы или триграммы?

Мне просто интересно, каково использование n -граммов (n>3)(и частоты их появления ), учитывая вычислительные затраты на их вычисление. Существуют ли какие-либо приложения, в которых биграммы или триграммы...
вопрос задан: 24 April 2012 08:41
0
ответов

Токенизация большого (>70MB) TXT-файла с помощью Python NLTK. Конкатенация и запись данных в поток ошибок

Прежде всего, я новичок в python/nltk, поэтому приношу свои извинения, если вопрос слишком прост. У меня есть большой файл, который я пытаюсь токенизировать; Я получаю ошибки памяти. Одно из решений, о котором я читал, - это прочитать ...
вопрос задан: 24 March 2012 19:11
0
ответов

Как получить инфинитивную форму глагола с помощью тегов NLTK (pos)

Я пытаюсь изучить обработку естественного языка (английского)с помощью NLTK и Python. Есть ли способ получить инфинитивную форму глагола во время или после тегирования POS-?. Например :это (VBZ)=> быть...
вопрос задан: 19 March 2012 01:17
0
ответов

Крупномасштабное машинное обучение — Python или Java? [закрыто]

В настоящее время я приступаю к проекту, который будет включать сканирование и обработку огромных объемов данных (сотни гигабайт), а также их анализ для извлечения структурированных данных, распознавания именованных сущностей, ...
вопрос задан: 15 March 2012 16:12
0
ответов

Замена порядковых номеров

В настоящее время я ищу способ заменить такие слова, как первый, второй, третий,... соответствующим представлением порядкового номера ( 1, 2, 3). Я гуглил всю последнюю неделю и не нашел...
вопрос задан: 10 March 2012 14:27
0
ответов

Обучение HMM без присмотра в NLTK

Я просто пытаюсь провести очень простое обучение HMM без присмотра в nltk. Рассмотрим: import nltk тренер = nltk.tag.hmm.HiddenMarkovModelTrainer() из nltk.corpus импорт Гутенберга emma = gutenberg.words(...
вопрос задан: 5 March 2012 23:51
0
ответов

NLTK считает, что императивы - это существительные

I Я использую pos_tagger в рецептах. Проблема, с которой я столкнулся, заключается в том, что pos_tagger возвращает, что слова в повелительном наклонении являются существительными, не должны ли они быть глаголами? Например: С вводом: объединить ...
вопрос задан: 23 February 2012 04:41
0
ответов

Токенизация юникода с использованием nltk

У меня есть текстовые файлы, которые используют кодировку utf-8 и содержат символы вроде 'ö' , 'ü' и т. д. Я хотел бы проанализировать текст из этих файлов, но мне не удается заставить токенизатор работать должным образом. Если я использую стандартные ..
вопрос задан: 10 February 2012 13:33
0
ответов

Использование предварительно обученной модели MaltParser с NLTK

Кто-нибудь может сказать мне, как использовать предварительно обученную модель MaltParser (http://maltparser.org/mco/english_parser/engmalt.html) в nltk.parse.malt ? Кажется, единственный вариант - обучение из файла (если кто-нибудь ...
вопрос задан: 27 January 2012 00:09
0
ответов

Вызов согласования NLTK - как получить текст до / после использованного слова?

Я хотел бы узнать, какой текст идет после экземпляра, возвращаемого согласованием. Так, например, если вы посмотрите на пример, который они приводят в разделе «Поиск текста», они получают соответствие слова «...
вопрос задан: 17 January 2012 16:25
0
ответов

Использование моего собственного корпуса для классификации категорий в Python NLTK

Я новичок в NTLK / Python, и мне удалось загрузить свой собственный корпус с помощью CategoryizedPlaintextCorpusReader, но как я на самом деле тренируюсь и использовать данные для классификации текста? >>> from nltk ....
вопрос задан: 11 January 2012 11:34
0
ответов

Некоторые вещи НЛП, связанные с грамматикой, тегированием, выделением корней и устранением неоднозначности слов в Python

Общие сведения (TL; DR; предоставляется для завершения) Обращение за советом по оптимальному решению нечетного требования. Я студент (литературный) на четвертом курсе колледжа и только под моим личным руководством ...
вопрос задан: 16 December 2011 23:37
0
ответов

pos_tag в NLTK не помечает предложения правильно

Я использовал этот код: # Шаг 1: ТОКЕНИЗИРОВАТЬ from nltk.tokenize import * words = word_tokenize(text) # Шаг 2 : POS DISAMBIG из nltk.tag import * tags = pos_tag(words) для пометки двух предложений: Джон ...
вопрос задан: 3 December 2011 23:13
0
ответов

Сопоставление слов с помощью парсера фрагментов NLTK

Регулярные выражения парсера фрагментов NLTK могут соответствовать тегам POS, но могут ли они также соответствовать определенным словам? Итак, предположим, я хочу разбить любую структуру на части с существительным, за которым следует глагол "left" (наз
вопрос задан: 20 November 2011 23:06
0
ответов

Ручная маркировка обучающего набора настраиваемыми тегами

Я бы нравится выполнять некоторую обработку на естественном языке в рецептах приготовления, в частности в ингредиентах (возможно, в дальнейшем приготовлении). В основном я хочу создать свой собственный набор тегов POS, чтобы ...
вопрос задан: 19 November 2011 21:38
0
ответов

NLTK не удается найти исполняемый файл Java

, я использую NLTK NLTK.TAG.SANFORD, который должен вызвать исполняемый файл Java. Я устанавливаю файлы Javahome на C: \ Program \ Java \ JDK1.6.0_25, где установлен мой JDK, но при запуске программы я получаю ошибку «...
вопрос задан: 16 November 2011 19:03
0
ответов

Как получить лучшие результаты с помощью тега NLTK pos

Я только изучаю nltk, используя Python. Я пробовал использовать pos_tag для разных предложений. Но полученные результаты не точны. Как я могу импровизировать результаты? Broken = NN flimsy = NN crap = NN Также я ...
вопрос задан: 16 November 2011 04:30
0
ответов

Сжатие предложений с использованием NLP [closed]

Используя машинный перевод, могу ли я получить очень сжатую версию предложения, например . Я действительно хочу выпить восхитительный вкусный кофе. Будет переведено на Хочу кофе Есть ли что-нибудь из ...
вопрос задан: 22 October 2011 05:37
0
ответов

НЛТК / НЛП построение предметного классификатора "многие-ко-многим" / с несколькими ярлыками

У меня есть помеченный людьми корпус из более чем 5000 тематические индексированные документы в XML. Они различаются по размеру от нескольких сотен килобайт до нескольких сотен мегабайт. Краткие статьи к рукописям. У них ...
вопрос задан: 15 October 2011 19:32
0
ответов

Определение важных слов и фраз в тексте

У меня есть текст, хранящийся в строке python. Что я хочу Определить ключевые слова в этом тексте. Определить N-граммы в этом тексте (в идеале больше, чем просто би- и триграммы). Имейте в виду... Текст может быть ...
вопрос задан: 6 October 2011 16:36
0
ответов

Заводская девушка против User.create - в чем разница?

Это дополнительная заметка к вопросу «Заводская девушка - какова цель?» Я не уверен, считается ли мой вопрос повторяющимся, но я просто до сих пор не очень ясно прочитав это...
вопрос задан: 1 October 2011 08:28
0
ответов

Быстрый расчет n-граммов

Я использую NLTK для поиска n-граммов в корпусе, но это требует в некоторых случаях очень долго. Я заметил, что вычисление n-граммов не является редкостью в других пакетах (очевидно, в Haystack есть ...
вопрос задан: 29 September 2011 10:51
0
ответов

Тематическое моделирование в MALLET и NLTK

Я только что прочитал увлекательную статью о том, как MALLET можно использовать для тематического моделирования, но я не смог найти что-нибудь онлайн, сравнивающее MALLET с NLTK, с которым я уже имел некоторый опыт. Что ...
вопрос задан: 19 September 2011 19:24
0
ответов

Использование NLTK в C # через Ironpython

Я использую Visual Studio 2010. У меня есть проект консоли Ironpython Проект консоли C #. Этот скрипт Ironpython работает нормально, когда я бегу сам по себе: импортировать NLTK Def Simple (): BaconipsumFile ...
вопрос задан: 16 September 2011 15:29
0
ответов

Какое сходство функции nltk.corpus.wordnet подходит для находки сходства двух слов?

Какая функция сходства в nltk.corpus.wordnet подходит для поиска сходства двух слов? path_similerity ()? lch_similerity ()? wup_similerity ()? res_similerity ()? ...
вопрос задан: 13 September 2011 12:32
0
ответов

NLP-программа для классификации больших наборов данных

Background В течение многих лет я использовал свои собственные байесовские методы для классификации новых элементов из внешних источников на основе большого и постоянно обновляемого набора обучающих данных. Существует три типа ...
вопрос задан: 30 August 2011 19:00
0
ответов

Как получить набор правил грамматики от Penn Treebank с помощью python и NLTK?

Я новичок в NLTK и Python. Я создавал синтаксический анализ предложений с использованием игрушечных грамматик, приведенных в примерах, но мне хотелось бы знать, можно ли использовать грамматику, изученную из части ...
вопрос задан: 14 August 2011 13:13
0
ответов

NLTK - когда нормализовать текст?

Я закончил сбор данных, которые планирую использовать для своего корпуса, но я немного не понимаю, следует ли мне нормализовать текст. Я планирую пометить и разбить корпус на части в будущем. Некоторые из NLTK ...
вопрос задан: 20 July 2011 20:01
0
ответов

Как в NLTK получить согласованность текста?

>>> c = t.concordance ('президент') Показано 25 из 142 совпадений: Хейса, штат Канзас, в качестве нового президента школы. Доктор Кларк станет преемником доктора Дж.Р. долларов, сказал С. Вирджил Мартин, президент ...
вопрос задан: 13 July 2011 02:04
0
ответов

Кто-нибудь знает реализацию алгоритма Яровского?

Я хочу найти коллокацию в огромных текст с использованием алгоритма Яровского. Я читал об этом алгоритме по этим ссылкам: wikipedia и Yarowsky, google book и yarowsky Я хотел знать, есть ли ...
вопрос задан: 12 July 2011 18:26