0
ответов

Как использовать несколько версий Python без удаления

Я столкнулся с уникальной ситуацией, немного тривиальной, но болезненной. Мне нужно использовать Python 2.6.6, потому что NLTK не портирован на Python 3 (, вот что я смог собрать ). В другом коде (, который есть...
вопрос задан: 30 March 2014 20:01
0
ответов

Удалить повторяющиеся символы из слов

Мне было интересно, как лучше всего преобразовать что-то вроде «haaaaapppppyyy» в «haappyy». По сути, при разборе сленга люди иногда повторяют символы для дополнительного акцента. Мне было интересно...
вопрос задан: 13 March 2014 17:59
0
ответов

nltk.download () зависает на OS X

nltk.download () зависает для меня на OS X. Вот что происходит: $ python >>> Python 2.7.2 (по умолчанию, 11 октября 2012 г., 20:14:37) >>> [GCC 4.2.1 Совместимая Apple Clang 4.0 (теги / Apple / ...
вопрос задан: 17 June 2013 23:03
0
ответов

Есть ли в NLTK какие-либо классы для нормализации и канонизации текста?

Преобладающее количество документации и примеров NLTK посвящено лемматизации и стеммингу, но очень мало по таким вопросам нормализации, как: преобразование всех букв в нижние или верхние кейс ...
вопрос задан: 7 May 2013 13:57
0
ответов

Грамматика голландского языка в Python NLTK

Я работаю над корпусом голландского языка и хочу знать, встроена ли в NLTK голландская грамматика, поэтому я может разобрать мои предложения? Вообще NLTK работает только на английском? Я знаю, что в нем есть голландский язык Alpino ...
вопрос задан: 22 March 2013 18:42
0
ответов

Как удалить стоп-слова с помощью nltk или python

Итак, у меня есть набор данных, из которого я хотел бы удалить стоп-слова из использования stopwords.words ('english') Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто удалить эти слова. У меня есть список ...
вопрос задан: 6 March 2013 11:53
0
ответов

что такое выход MeCab и набор тегов?

Может ли кто-нибудь просветить меня по поводу вывода MeCab по умолчанию? какую аннотацию выводит MeCab и где я могу найти набор тегов для морфо-анализатора http://mecab.sourceforge.net/ может кто-нибудь расшифровать ...
вопрос задан: 5 February 2013 02:56
0
ответов

Устройство тегов POS для корейского, тайского и индонезийского языков

Может ли кто-нибудь порекомендовать устройство для тегов POS с открытым исходным кодом для корейского, индонезийского, тайского и вьетнамского языков? Это я могу использовать для маркировки данных корпуса, которые у меня есть в настоящее время. (например
вопрос задан: 20 November 2012 06:27
0
ответов

为什么将这些词视为停用词?

我在自然语言处理中没有正式背景,想知道NLP方面是否有人可以对此有所启发。 我正在使用NLTK库,当时我...
вопрос задан: 26 October 2012 00:11
0
ответов

Избавьтесь от стоп-слов и знаков препинания

Я борюсь с NLTK-стоп-словом. Вот мой код .. Может кто подскажет, что не так? из nltk.corpus import stopwords def removeStopwords (palabras): return [слово в слово в ...
вопрос задан: 26 October 2012 00:04
0
ответов

Установить программно корпуса / модели NLTK, то есть без GUI-загрузчика?

В моем проекте используется NLTK. Как я могу составить список требований к корпусу и модели проекта, чтобы их можно было установить автоматически? Я не хочу нажимать на графический интерфейс nltk.download (), устанавливая ...
вопрос задан: 25 October 2012 13:09
0
ответов

Токенизация арабских слов с использованием NLTK

Я использую NLTK word_tokenizer, чтобы разделить предложение на слова. Я хочу обозначить это предложение следующим образом:
вопрос задан: 23 October 2012 19:30
0
ответов

Что такое подсчет ngram и как его реализовать с помощью nltk?

Я читал статью, в которой в качестве функции для классификатора используется число ngram, и мне было интересно, что именно это означает. Пример текста: "Lorem Ipsum Dolor Sit Amet, Contetur Sadipscing Elitr, Sed Diam" Я ...
вопрос задан: 10 October 2012 14:01
0
ответов

Понимание оценки коллокации NLTK для биграмм и триграмм

Предпосылки: я пытаюсь сравнить пары слов, чтобы увидеть, какая пара "более вероятна" "на американском английском, чем другая пара. Мой план состоял в / состоял в том, чтобы использовать средства сопоставления в NLTK для оценки слов ...
вопрос задан: 5 October 2012 18:24
0
ответов

nltk токенизация и сокращения

Я размечаю текст с помощью nltk, просто предложения загружаются в токенизатор wordpunct _. Это разделяет сокращения (, т.е. 'не' на 'дон' +" ' "+'т' ), но я хочу сохранить их как одно слово. Я совершенствую свои методы для...
вопрос задан: 31 August 2012 11:15
0
ответов

TF *IDF для поисковых запросов

Итак, я следил за этими двумя постами на TF *IDF, но немного запутался:http://css.dzone.com/articles/machine-learning-text-featureПо сути, я хочу создать поисковый запрос, содержащий...
вопрос задан: 11 August 2012 02:44
0
ответов

TF -IDF Simple Use -NLTK/Scikit Learn

Хорошо, поэтому я немного смущен. Однако это должен быть простой прямой вопрос. После вычисления TF -IDF Matrix of the Document по всему корпусу я получаю очень похожий результат...
вопрос задан: 8 August 2012 17:47
0
ответов

Python Список нграмм с частотами

Мне нужно получить наиболее популярные нграммы из текста. Длина нграмм должна быть от 1 до 5 слов. Я знаю, как получить биграммы и триграммы. Например: bigram_measures = nltk.collocations.BigramAssocMeasures () ...
вопрос задан: 1 August 2012 16:29
0
ответов

Низкая производительность тегов POS. Можно ли сделать какой-нибудь предварительный -прогрев?

Я использую NLTK для POS -, помечая сотни твитов в веб-запросе. Как вы знаете, Django создает обработчик запросов для каждого запроса. Я заметил это :по запросу (~200 твитов ), первый твит...
вопрос задан: 23 July 2012 09:45
0
ответов

извлечение ключевого слова python nltk из предложения

«Первое, что мы сделаем, давайте убьем всех адвокатов». -Уильям Шекспир Учитывая приведенную выше цитату, я хотел бы выделить «убить» и «адвокаты» в качестве двух важных ключевых слов для описания общего...
вопрос задан: 10 July 2012 05:07
0
ответов

Проверка орфографии с автозаменой

У меня есть файл TSV (tab -с разделенными значениями ), который мне нужно проверить по буквам -на наличие опечаток и комбинированных слов (, т.е. «I love you» vs «Iloveyou» ). Я установил Aspell на свою машину и могу запустить его через R...
вопрос задан: 7 July 2012 06:00
0
ответов

Распознавание именованных объектов NLTK с пользовательскими данными

Я пытаюсь извлечь именованные объекты из своего текста, используя NLTK. Я считаю, что NLTK NER не очень точен для моей цели, и я также хочу добавить еще несколько собственных тегов. Я пытался найти...
вопрос задан: 4 July 2012 18:24
0
ответов

NLTK назвала распознавание объектов на голландском языке

Я пытаюсь извлечь именованные сущности из голландского текста. Я использовал трейнер nltk -для обучения таггера и чанчера на голландском корпусе conll2002. Однако метод разбора из чанкера не обнаруживает...
вопрос задан: 2 July 2012 11:54
0
ответов

scikits Learn и nltk :Производительность наивного байесовского классификатора сильно различается

Я сравниваю два наивных байесовских классификатора :один из NLTK и один из scikit -Learn. Я имею дело с проблемой классификации нескольких -классов (3 класса :положительных (1 ), отрицательных (-1 )и нейтральных (0 ))....
вопрос задан: 23 June 2012 13:19
0
ответов

Корпус фраз для сентиментального анализа

Добрый день, Я пытаюсь написать приложение для сентиментального анализа на питоне (используя классификатор наивного байеса) с целью классифицировать фразы из новостей как положительные или отрицательные. А у меня...
вопрос задан: 28 May 2012 19:56
0
ответов

Открытие большого файла JSON в Python

У меня есть файл JSON размером 1,7 ГБ, когда я пытаюсь открыть его с помощью json.load(), тогда это выдает ошибку памяти. Как можно прочитать файл json в python? Мой файл JSON представляет собой большой массив объектов, содержащих определенные...
вопрос задан: 24 May 2012 08:08
0
ответов

Подсчитайте глаголы, существительные и другие части речи с помощью NLTK Python

У меня есть несколько текстов, и я хотел бы создать их профили на основе использования ими различных частей речи, таких как существительные и глаголы. По сути, мне нужно подсчитать, сколько раз каждая часть речи...
вопрос задан: 20 May 2012 15:41
0
ответов

Создание пользовательского категоризированного корпуса в NLTK и Python

У меня возникла небольшая проблема, связанная с регулярными выражениями и CategorizedPlaintextCorpusReader в Python. Я хочу создать собственный категоризированный корпус и обучить наивному -байесовскому методу...
вопрос задан: 6 May 2012 00:36
0
ответов

Как создать собственный текст NLTK из текстового файла?

Я аспирант факультета литературы и просматриваю книгу О'Рейли по обработке естественного языка (nltk.org/book ). Это выглядит невероятно полезным. Я поигрался со всеми текстами-примерами...
вопрос задан: 6 May 2012 00:13
0
ответов

Как пометить текст на французском языке и разбить его на фрагменты с помощью NLTK и Python?

У меня есть более 30 000 статей на французском языке в файле JSON. Я хотел бы провести некоторый анализ текста как по отдельным статьям, так и по набору в целом. Прежде чем идти дальше, я начну с...
вопрос задан: 29 April 2012 14:36