6
ответов

Обработка естественного языка: Создание (маленьких) корпусов, или, “Где получить много not-too-specialized англоязычных текстовых файлов?”

У кого-либо есть предложение для того, где найти архивы или наборы повседневного английского текста для использования в маленьком корпусе? Я использовал книги Проекта Gutenberg для рабочего прототипа, и...
вопрос задан: 23 May 2017 12:01
3
ответа

Поиск набора данных для тестирования FULLTEXT разрабатывает поиски на [закрытом]

Я ищу корпус текста для выполнения некоторой пробной версии fulltext поиски данных стиля через. Или что-то, что я могу загрузить, или система, которая генерирует его. Что-то немного более случайное было бы лучше, например....
вопрос задан: 28 December 2015 16:29
3
ответа

Чтение текста корпуса с помощью nltk.corpus.reader.plaintext - Python 3 [duplicate]

Я использую модуль NLTK.corpus в Python (3.6.3) для построения и анализа созданного мною корпуса. Этот корпус состоит из нескольких сотен документов. Чтобы получить доступ к содержимому документа в корпусе, ...
вопрос задан: 22 January 2015 00:16
1
ответ

Потоковая передача на векторизатор в конвейере

У меня большой языковой корпус, и я использую векторизатор sklearn tfidf и gensim Doc2Vec для вычисления языковых моделей. В моем общем корпусе около 100 000 документов, и я понял, что мой блокнот Jupyter ...
вопрос задан: 31 January 2019 19:06
1
ответ

Удаление стоп-фраз из DocumentTermMatrix

Ниже я делаю базовое моделирование темы для «грубых» данных. Я знаю, что могу удалить стоп-слова, используя tm_map, но я не могу понять, как это сделать после того, как происходит токенизация bigram. библиотека (topicmodels) ...
вопрос задан: 13 July 2018 19:19
1
ответ

TypeError: doc2bow ожидает массив токенов unicode на входе, а не одну строку [duplicate]

Я искал все предложения, где каждый говорит, чтобы сломать строку в токены с помощью функции split. Все, что уже сделано, но все же кажется, что у него такая же ошибка снова и снова. для r в ...
вопрос задан: 20 October 2015 06:20
1
ответ

Корпус/набор данных английских слов с силлабической информацией о напряжении?

Я знаю, что это - съемка общим планом, но кто-либо знает о наборе данных английских слов, который имеет информацию о напряжении слогом? Что-то столь же простое как следующее было бы фантастическим: AARD vark ble...
вопрос задан: 20 February 2015 03:12
1
ответ

Свободный размеченный корпус для [закрытого] выделения именованных сущностей

Я ищу свободный размеченный корпус для системы для обучения на для Выделения именованных сущностей. Большинство из тех, которых я нахожу (как Нью-Йорк таймс одна) является дорогим и не открытым. Кто-либо может помочь?
вопрос задан: 9 September 2013 20:09
1
ответ

NLTK - как узнать, какие корпуса установлены из Python?

Я пытаюсь загрузить некоторые корпуса, которые я установил с установщиком NLTK, но я получил a:>>> от nltk.corpus импортируют machado Traceback (новый вызов в последний раз): Файл" <stdin>", строка...
вопрос задан: 26 October 2012 00:09
1
ответ

Список имен собственных?

Я пытаюсь отфильтровать имена из текстовых блобов. В настоящее время я просто генерирую список слов и фильтрую его вручную, но у меня есть ~8k слова для движения так, я ищу лучший путь. Я мог захватить...
вопрос задан: 30 April 2012 14:30
1
ответ

Как разделить заголовки/нижние колонтитулы из Проекта тексты Gutenberg?

Я попробовал различные методы для разделения лицензии из Проекта тексты Gutenberg для использования в качестве корпуса для проекта изучения языка, но я, может казаться, не придумываю безнадзорный, надежный подход...
вопрос задан: 14 April 2011 14:54
1
ответ

Параллель с русского на английский Word Corpus? [закрытый]

Я ищу простого русского к английскому корпусу слова. Это может быть столь же просто как csv, который перечисляет российское слово в первом столбце и эквивалентное английское слово во втором. Любые идеи, где я...
вопрос задан: 7 May 2010 00:11
0
ответов

Создание нового корпуса с помощью NLTK

Я подумал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK, но это не так » Я не могу дать ответ. Я новичок в Python. У меня есть куча .txt ...
вопрос задан: 9 June 2019 18:53
0
ответов

Какой набор спама я могу использовать в NLTK?

Мой вопрос в значительной степени связан с этим, но я решил открыть другую ветку вопросов. Надеюсь, все в порядке. Я также создаю фильтр спама, используя NLTK в Python, но я только начал. Я ...
вопрос задан: 23 May 2017 10:29
0
ответов

Более эффективные средства для создания корпуса и DTM с 4M строк

В моем файле более 4 миллионов строк, и мне нужен более эффективный способ преобразования моих данных в матрицу терминов корпуса и документа, чтобы я мог передать их в байесовский классификатор. Рассмотрим следующий код: ...
вопрос задан: 15 July 2016 02:23
0
ответов

R tm removeWords функция не удаляет слова

Я пытаюсь удалить некоторые слова из корпуса, который я построил, но, похоже, он не работает. Сначала я пробегаю все и создаю фрейм данных, в котором перечислены мои слова в порядке их частоты. Я ...
вопрос задан: 26 August 2015 12:07
0
ответов

Установить программно корпуса / модели NLTK, то есть без GUI-загрузчика?

В моем проекте используется NLTK. Как я могу составить список требований к корпусу и модели проекта, чтобы их можно было установить автоматически? Я не хочу нажимать на графический интерфейс nltk.download (), устанавливая ...
вопрос задан: 25 October 2012 13:09
0
ответов

Наборы фейковых отзывов

В Интернете есть наборы данных с обычным почтовым спамом, но мне нужны наборы данных с фейковыми отзывами для проведения исследований и я не могу найти ни одного из них. Кто-нибудь может подсказать, где фейковые отзывы...
вопрос задан: 18 May 2012 11:29
0
ответов

Есть ли бесплатный Treebank? [закрыто]

Можно ли где-нибудь скачать Treebank английских фраз бесплатно или менее чем за 100 долларов? Мне нужны обучающие данные, содержащие кучу синтаксически проанализированных предложений (> 1000) на английском языке в любом формате. В основном все ...
вопрос задан: 21 January 2012 00:14
0
ответов

Использование моего собственного корпуса для классификации категорий в Python NLTK

Я новичок в NTLK / Python, и мне удалось загрузить свой собственный корпус с помощью CategoryizedPlaintextCorpusReader, но как я на самом деле тренируюсь и использовать данные для классификации текста? >>> from nltk ....
вопрос задан: 11 January 2012 11:34
0
ответов

Какое сходство функции nltk.corpus.wordnet подходит для находки сходства двух слов?

Какая функция сходства в nltk.corpus.wordnet подходит для поиска сходства двух слов? path_similerity ()? lch_similerity ()? wup_similerity ()? res_similerity ()? ...
вопрос задан: 13 September 2011 12:32
0
ответов

Как быстрее подсчитывать слова в nltk plaintextcorpus?

У меня есть набор документов, и я хочу вернуть список кортежей, где каждый кортеж имеет дату данного документа и количество раз, когда данный поисковый запрос встречается в этом документе. Мой код (ниже) ...
вопрос задан: 11 January 2011 05:44
0
ответов

понимание структуры корпуса semcor h

Я изучаю НЛП. Я сейчас играю с устранением неоднозначности слова. Я планирую использовать корпус semcor в качестве обучающих данных, но у меня проблемы с пониманием структуры xml. Я пробовал погуглить, но ...
вопрос задан: 3 January 2011 10:27