Мне просто интересно, каково использование n -граммов (n>3)(и частоты их появления ), учитывая вычислительные затраты на их вычисление. Существуют ли какие-либо приложения, в которых биграммы или триграммы...
Прежде всего, я новичок в python/nltk, поэтому приношу свои извинения, если вопрос слишком прост. У меня есть большой файл, который я пытаюсь токенизировать; Я получаю ошибки памяти. Одно из решений, о котором я читал, - это прочитать ...
Я пытаюсь изучить обработку естественного языка (английского)с помощью NLTK и Python. Есть ли способ получить инфинитивную форму глагола во время или после тегирования POS-?. Например :это (VBZ)=> быть...
В настоящее время я приступаю к проекту, который будет включать сканирование и обработку огромных объемов данных (сотни гигабайт), а также их анализ для извлечения структурированных данных, распознавания именованных сущностей, ...
В настоящее время я ищу способ заменить такие слова, как первый, второй, третий,... соответствующим представлением порядкового номера ( 1, 2, 3).
Я гуглил всю последнюю неделю и не нашел...
Я просто пытаюсь провести очень простое обучение HMM без присмотра в nltk. Рассмотрим: import nltk
тренер = nltk.tag.hmm.HiddenMarkovModelTrainer()
из nltk.corpus импорт Гутенберга
emma = gutenberg.words(...
I Я использую pos_tagger в рецептах. Проблема, с которой я столкнулся, заключается в том, что pos_tagger возвращает, что слова в повелительном наклонении являются существительными, не должны ли они быть глаголами? Например: С вводом: объединить ...
У меня есть текстовые файлы, которые используют кодировку utf-8 и содержат символы вроде 'ö' , 'ü' и т. д. Я хотел бы проанализировать текст из этих файлов, но мне не удается заставить токенизатор работать должным образом. Если я использую стандартные ..
Кто-нибудь может сказать мне, как использовать предварительно обученную модель MaltParser (http://maltparser.org/mco/english_parser/engmalt.html) в nltk.parse.malt ? Кажется, единственный вариант - обучение из файла (если кто-нибудь ...
Я хотел бы узнать, какой текст идет после экземпляра, возвращаемого согласованием. Так, например, если вы посмотрите на пример, который они приводят в разделе «Поиск текста», они получают соответствие слова «...
Я новичок в NTLK / Python, и мне удалось загрузить свой собственный корпус с помощью CategoryizedPlaintextCorpusReader, но как я на самом деле тренируюсь и использовать данные для классификации текста? >>> from nltk ....
Общие сведения (TL; DR; предоставляется для завершения) Обращение за советом по оптимальному решению нечетного требования.
Я студент (литературный) на четвертом курсе колледжа и только под моим личным руководством ...
Я использовал этот код: # Шаг 1: ТОКЕНИЗИРОВАТЬ
from nltk.tokenize import *
words = word_tokenize(text) # Шаг 2 : POS DISAMBIG
из nltk.tag import *
tags = pos_tag(words) для пометки двух предложений: Джон ...
Регулярные выражения парсера фрагментов NLTK могут соответствовать тегам POS, но могут ли они также соответствовать определенным словам?
Итак, предположим, я хочу разбить любую структуру на части с существительным, за которым следует глагол "left" (наз
Я бы нравится выполнять некоторую обработку на естественном языке в рецептах приготовления, в частности в ингредиентах (возможно, в дальнейшем приготовлении). В основном я хочу создать свой собственный набор тегов POS, чтобы ...
, я использую NLTK NLTK.TAG.SANFORD, который должен вызвать исполняемый файл Java. Я устанавливаю файлы Javahome на C: \ Program \ Java \ JDK1.6.0_25, где установлен мой JDK, но при запуске программы я получаю ошибку «...
Я только изучаю nltk, используя Python. Я пробовал использовать pos_tag для разных предложений. Но полученные результаты не точны. Как я могу импровизировать результаты? Broken = NN
flimsy = NN
crap = NN Также я ...
Используя машинный перевод, могу ли я получить очень сжатую версию предложения, например
. Я действительно хочу выпить восхитительный вкусный кофе. Будет переведено на Хочу кофе
Есть ли что-нибудь из ...
У меня есть помеченный людьми корпус из более чем 5000 тематические индексированные документы в XML. Они различаются по размеру от нескольких сотен килобайт до нескольких сотен мегабайт. Краткие статьи к рукописям. У них ...
У меня есть текст, хранящийся в строке python. Что я хочу Определить ключевые слова в этом тексте.
Определить N-граммы в этом тексте (в идеале больше, чем просто би- и триграммы). Имейте в виду... Текст может быть ...
Это дополнительная заметка к вопросу «Заводская девушка - какова цель?» Я не уверен, считается ли мой вопрос повторяющимся, но я просто до сих пор не очень ясно прочитав это...
Я использую NLTK для поиска n-граммов в корпусе, но это требует в некоторых случаях очень долго. Я заметил, что вычисление n-граммов не является редкостью в других пакетах (очевидно, в Haystack есть ...
Я только что прочитал увлекательную статью о том, как MALLET можно использовать для тематического моделирования, но я не смог найти что-нибудь онлайн, сравнивающее MALLET с NLTK, с которым я уже имел некоторый опыт. Что ...
Я использую Visual Studio 2010. У меня есть проект консоли Ironpython Проект консоли C #. Этот скрипт Ironpython работает нормально, когда я бегу сам по себе: импортировать NLTK Def Simple (): BaconipsumFile ...
Какая функция сходства в nltk.corpus.wordnet подходит для поиска сходства двух слов? path_similerity ()? lch_similerity ()? wup_similerity ()? res_similerity ()? ...
Background В течение многих лет я использовал свои собственные байесовские методы для классификации новых элементов из внешних источников на основе большого и постоянно обновляемого набора обучающих данных. Существует три типа ...
Я новичок в NLTK и Python. Я создавал синтаксический анализ предложений с использованием игрушечных грамматик, приведенных в примерах, но мне хотелось бы знать, можно ли использовать грамматику, изученную из части ...
Я закончил сбор данных, которые планирую использовать для своего корпуса, но я немного не понимаю, следует ли мне нормализовать текст. Я планирую пометить и разбить корпус на части в будущем. Некоторые из NLTK ...
>>> c = t.concordance ('президент')
Показано 25 из 142 совпадений:
Хейса, штат Канзас, в качестве нового президента школы. Доктор Кларк станет преемником доктора Дж.Р. долларов, сказал С. Вирджил Мартин, президент ...
Я хочу найти коллокацию в огромных текст с использованием алгоритма Яровского.
Я читал об этом алгоритме по этим ссылкам: wikipedia и Yarowsky, google book и yarowsky
Я хотел знать, есть ли ...