2
ответа

Каков фрагментатор по умолчанию для инструментария NLTK в Python?

Я использую их частеречную разметку по умолчанию и токенизацию по умолчанию.. и это кажется достаточным. Я хотел бы их фрагментатор по умолчанию также. Я читаю книгу инструментария NLTK, но не кажется, что они имеют...
вопрос задан: 6 November 2009 13:10
2
ответа

tf-idf и ранее невидимые условия

TF-IDF (частотность термина - обратная частота документа) является главным продуктом информационного поиска. Это не надлежащая модель, хотя, и это, кажется, ломается, когда новые условия вводятся в корпус...
вопрос задан: 2 November 2009 23:02
2
ответа

Методы для содержания геотеггинга или геотекста метки

Каковы некоторые хорошие алгоритмы для автоматически текста метки с городом / регион или источник? Таким образом, если блог о Нью-Йорке, как я могу сказать программно. Есть ли пакеты / бумаги...
вопрос задан: 2 November 2009 16:30
2
ответа

Классификация текста на основе групп ключевых слов?

У меня есть список требований для проекта программного обеспечения, собранного от останков его предшественника. Каждое требование должно отобразиться на одну или несколько категорий. Каждая из категорий состоит из группы...
вопрос задан: 29 September 2009 00:54
2
ответа

Простой анализ мнений

Кажется, что самое простое, naivest способ сделать основной анализ мнений с байесовским классификатором (подтвержденный тем, на чем я нахожу здесь ТАК). Какие-либо контрдоводы или другие предложения?
вопрос задан: 4 July 2009 19:26
2
ответа

N-граммы: Объяснение + 2 приложения

Я хочу реализовать некоторые приложения с n-граммами (предпочтительно в PHP). Какой тип n-грамм достаточен больше для большинства целей? Уровень слова или символьная n-грамма уровня? Как Вы могли реализовать...
вопрос задан: 23 June 2009 13:21
2
ответа

Нахождение связанных слов (специфически физические объекты) к определенному слову

Я пытаюсь найти слова (специфически физические объекты) связанный с отдельным словом. Например: Теннис: теннисная ракетка, теннисный шар, Снукер теннисной туфли: снукерный сигнал, снукерный шар, Шахматы мела:...
вопрос задан: 2 April 2009 11:39
2
ответа

Как я могу использовать обработку естественного языка для парсинга составляющих рецепта?

Я должен проанализировать составляющие рецепта в сумму, измерение, объект, и описание, столь же применимое к строке, такие как 1 чашка муки, кожица 2 лимонов и 1 чашки, упаковало коричневый сахар и т.д. Что было бы...
вопрос задан: 28 January 2009 00:15
2
ответа

Обработка естественного языка: Качественно “положительный” по сравнению с “отрицательным” предложением

Я нуждаюсь в Вашей помощи в определении лучшего подхода для того, чтобы проанализировать отраслевые предложения (т.е. обзоры фильмов) для "положительного" по сравнению с "отрицательным". Я видел библиотеки, такие как OpenNLP прежде, но
вопрос задан: 23 September 2008 17:51
1
ответ

Наивный Байесовский для обнаружения Темы с помощью “Мешок Слов” подход

Я пытаюсь реализовать наивный подход bayseian для нахождения темы данного документа или потока слов. Есть ли существует Наивный Байесовский подход, что я смог искать это? Кроме того, я...
вопрос задан: 10 April 2019 21:03
1
ответ

Разбиение команды на компоненты с использованием обработки естественного языка

Я хочу преобразовать команду назначения переменной в код. Например: «создать переменную альфа, равную числу 7» или «определить новую переменную альфа и установить ее на 7», и любой из них должен преобразоваться в: ...
вопрос задан: 10 April 2019 02:02
1
ответ

Как удалить слова, состоящие из одинаковых повторяющихся букв

Столбец dataframe содержит несколько слов с повторяющимися буквами. Я хочу удалить слова, полностью состоящие из одинаковых букв, из столбца данных и сохранить первое вхождение буквы ...
вопрос задан: 30 March 2019 22:06
1
ответ

Концепции для измерения текста & ldquo; релевантность & rdquo; к теме?

Я занимаюсь дополнительной работой над написанием / улучшением веб-приложения исследовательского проекта для некоторых политологов. Это приложение собирает статьи, относящиеся к Верховному суду США, и анализирует их ...
вопрос задан: 28 March 2019 17:45
1
ответ

Как исправить: [lower () принимает не более 5 аргументов (6 дано)] эту ошибку при чанкинге?

Я работаю над приложением Resume parser в НЛП. Следовательно, мне нужно разделить данные в нем. Я использую модуль Spacy для этого. Для этого я попытался создать экземпляр import en_core_web_sm nlp = en_core_web_sm.load (...
вопрос задан: 28 March 2019 03:44
1
ответ

FreqDist с NLTK

NLTK в python имеет функцию FreqDist, которая дает вам частоту слов в тексте. Я пытаюсь передать свой текст в качестве аргумента, но результат имеет вид: ['', 'e', ​​'a', 'o', 'n', 'i', '...
вопрос задан: 25 March 2019 07:08
1
ответ

как решить TypeError: language_model_learner () отсутствует 1 обязательный позиционный аргумент: 'arch' в python

Привет, я поражен, пожалуйста, помогите мне с этой проблемой. Я получаю эту ошибку. Ошибка типа: language_model_learner () отсутствует 1 обязательный позиционный аргумент: 'arch'
вопрос задан: 25 March 2019 04:38
1
ответ

получение слова полярности в каждом обзоре

Я работаю над предметно-ориентированным анализом настроений и хочу, чтобы сначала я получил каждую независимую полярность слова в этом конкретном корпусе (а не общую оценку, например, «SentiWordNet» или другие лексиконы).
вопрос задан: 24 March 2019 03:18
1
ответ

НЛП подходит для определения даты / времени в тексте

Мне нужно разработать приложение, которое идентифицирует дату внутри данного текста, используя некоторый подход НЛП. Давайте предположим, что у меня есть данные в БД с колонками дат «от», «до» и, если текст ниже, Get ...
вопрос задан: 18 March 2019 22:14
1
ответ

Если небольшая нейронная сеть использовалась в качестве функции оценки для модели Attention, против какой метки / значения она обучалась?

Я читаю статью о механизме внимания архитектуры кодера-декодера для машинного перевода. Было несколько предложений для функции оценки для шага декодирования, такой как косинус ...
вопрос задан: 10 March 2019 00:25
1
ответ

Недопустимая аппаратная ошибка при использовании GloVe

Я пытаюсь тренировать вложения GloVe. В реализации GloVe из stanfordnlp нужно запустить 4 сценария. Тем не менее, запуск второго сценария coocur приводит к недопустимой аппаратной инструкции
вопрос задан: 8 March 2019 11:15
1
ответ

Нахождение длинного слова, прерванного новой строкой

Я пытаюсь найти список слов, и поэтому я сгенерировал этот код: narrative = "Lasix 40 мг два раза в день, в течение трех дней вместе с медленным высвобождением хлорида калия 20 мг-экв в день в течение трех дней, ...
вопрос задан: 6 March 2019 04:44
1
ответ

Создавайте вложения слов, не сохраняя векторный файл fastText Vector в репозитории.

Я пытаюсь встроить предложение с помощью Infersent, и Infersent использует векторы fastText для встраивания слов. Векторный файл fastText близок к 5 ГиБ. Когда мы сохраняем векторный файл fastText ...
вопрос задан: 5 March 2019 17:52
1
ответ

Я хочу извлечь текстовые значения из текста в пространстве

Я новичок в использовании Spacy. Я хочу извлечь текстовые значения из предложений training_sentence = "Я хочу добавить текстовое поле с именем в качестве новых данных" ИЛИ training_sentence = "добавить поле и пометить его ...
вопрос задан: 5 March 2019 16:42
1
ответ

Как работать с двумя методами извлечения сущностей в НЛП

Я использую два разных метода извлечения сущностей (https://rasa.com/docs/nlu/entities/) при создании своей модели NLP в среде RASA для создания чат-бота. Бот должен обрабатывать разные ...
вопрос задан: 5 March 2019 11:36
1
ответ

Python treetaggerwrapper возвращает двоичную недействительную ошибку: tree-tagger.exe?

Я загрузил упаковщик treetagger для python из pip, чтобы использовать его для целей маркировки POS. Также я загрузил официальное приложение Treetagger с http: //www.smo.uhi.ac.uk/~oduibhin / ...
вопрос задан: 3 March 2019 09:15
1
ответ

Создать модель POSTagger

Я пытаюсь создать модель, которая принимает входное предложение в автономном приложении для Android и возвращает мне части речи для этого предложения. Теперь языком ввода будет индийский язык, поэтому я ...
вопрос задан: 2 March 2019 07:39
1
ответ

Заменить строковые символы их индексом слова

Обратите внимание на два последовательных пробела в этой строке: string = "Привет всем!" для i, c в перечислении (строка): print (i, c) 0 H 1 e 2 l 3 l 4 o 5 6 t 7 ч 8 e 9 r 10 e 11 12 13 e 14 v ...
вопрос задан: 23 February 2019 18:48
1
ответ

Обучение SVM с данными word2vector

Входные текстовые данные являются токенизированными: data ['tokenized'] ['hasan', 'minhaj', 'Responds', 'Netflix', 'Pulling', 'Episode', 'Comedy', 'Show', 'Saudi', ' arab '] Данные дополняются нулями, чтобы сделать все токенизированные ...
вопрос задан: 19 February 2019 09:53
1
ответ

Как вычислить сходство между двумя текстовыми документами?

Я собираюсь работать над проектом НЛП на любом языке программирования (хотя я предпочитаю Python). Я хочу взять два документа и определить, насколько они похожи.
вопрос задан: 19 February 2019 07:11
1
ответ

Загрузите словарь word2vec в gensim

Я загрузил предварительно обученные вложения word2vec в словарь python в форме {word: vector}. Например, элементом этого словаря является w2v_dict ["house"] = [1.1,2.0, ..., 0.2] Я хотел бы ...
вопрос задан: 21 January 2019 12:32