n-gram - список вопросов по программированию n-gram

4

ответа

“Решатель анаграммы” на основе статистики, а не словаря/таблицы?

Моя проблема концептуально подобна решению анаграмм, кроме я не могу только использовать поиск по словарю. Я пытаюсь найти вероятные слова, а не реальные слова. Я создал n-граммную модель (для...

вопрос задан: 7 May 2014 23:36

3

ответа

Простая реализация n-граммы, tf-idf и подобия Косинуса в Python

Я должен сравнить документы, хранившие в DB и придумывать счет подобия между 0 и 1. Метод, который я должен использовать, должен быть очень простым. Реализация ванильной версии n-грамм (где это...

python document n-gram tf-idf vsm

вопрос задан: 25 October 2012 19:00

3

ответа

Поисковый модуль Drupal может искать подстроку? (Частичный Поиск)

Базовый поисковый модуль Drupal, только ищет ключевые слова, например, "тестовую систему". Я могу заставить его искать с подстрокой, например, "sandw" и возвратить мои тестовые результаты? Возможно, существует плагин, который делает эт

search drupal partial n-gram

вопрос задан: 19 April 2010 00:08

2

ответа

Как отфильтровать строковые элементы в списке, которые встречаются в более длинных элементах в том же списке Python?

У меня есть список, который содержит такие элементы, как [«любовь», «волосы», «свет», «фен», «яркий свет», «яркий фен»] и хочу отфильтровать одно- или двойные слова, если они встречаются в триграмм. Как ...

python python-3.x list filter n-gram

вопрос задан: 4 March 2019 04:14

2

ответа

N-граммы: Объяснение + 2 приложения

Я хочу реализовать некоторые приложения с n-граммами (предпочтительно в PHP). Какой тип n-грамм достаточен больше для большинства целей? Уровень слова или символьная n-грамма уровня? Как Вы могли реализовать...

php nlp analysis n-gram

вопрос задан: 23 June 2009 13:21

1

ответ

Извлечение Ngrams с ml.net

У меня есть следующий конвейер: var mlContext = new MLContext (); var data = mlContext.Data.LoadFromEnumerable (new [] {new Input {Message = "один два три один два ...

n-gram ml.net

вопрос задан: 7 March 2019 09:04

1

ответ

Невозможно получить правильный результат от эластичного поиска на основе запроса и токенизации документа

Я пытаюсь реализовать поисковую систему, в которой мне нужно использовать Edge NGRAM Tokenizer. Настройки для создания индекса показаны ниже. Я использовал один и тот же токенизатор как для документов, так и для поисковых запросов. (...

elasticsearch search tokenize n-gram elasticsearch-analyzers

вопрос задан: 19 January 2019 14:46

1

ответ

Удаление стоп-фраз из DocumentTermMatrix

Ниже я делаю базовое моделирование темы для «грубых» данных. Я знаю, что могу удалить стоп-слова, используя tm_map, но я не могу понять, как это сделать после того, как происходит токенизация bigram. библиотека (topicmodels) ...

r n-gram topic-modeling corpus stop-words

вопрос задан: 13 July 2018 19:19

0

ответов

Как создать модель языка LSTM или RNN N-GRAM в API Tensorflow C ++

Как я могу создать языковую модель LSTM или RNN N-Gram в Tensorflow C ++ API? Моя цель состоит в том, чтобы получить количество вхождений слова (ngram), используя модель LSTM или RNN.

tensorflow lstm recurrent-neural-network n-gram

вопрос задан: 19 January 2019 18:56

0

ответов

Существуют ли языковые модели для сумок вместо последовательностей?

Я уверен, что это существует, но, к сожалению, я не могу найти правильные ключевые слова для поиска чего-либо в Google Scholar или тому подобном: в классической языковой модели вы считаете последовательности и по этим подсчетам ...

count n-gram language-model bag mathematical-lattices

вопрос задан: 17 January 2019 14:59

0

ответов

Как проиндексировать всю подстроку слова в Elastic Search, кроме использования ngram

Я ищу средство для поиска подстроки внутри фразы или текста. Я знаю, что могу использовать токенайзер ngram и устанавливать min-грамм и max-грамм для достижения этого. Но так как упругий поиск показывает обесценивание ...

n-gram elasticsearch

вопрос задан: 17 January 2019 10:42

0

ответов

Эффективное извлечение 1-5 грамм с питоном

У меня есть огромные файлы по 3 000 000 строк, и каждая строка содержит 20-40 слов. Я должен извлечь от 1 до 5 нграмм из корпуса. Мои входные файлы представляют собой простой текстовый токен, например: это предложение в строке foo. ...

n-gram information-retrieval nltk nlp python

вопрос задан: 23 May 2017 12:01

0

ответов

Анализ имён n-грамм на не-английских языках (CJK и т.д.)

Я работаю над дедупликацией базы данных людей. Для первого прохода я следую основному 2-этапному процессу, чтобы избежать операции O(n^2)по всей базе данных, как описано в литературе. Во-первых, я "...

cjk nlp python n-gram similarity

вопрос задан: 23 May 2017 11:49

0

ответов

Создание файла языковой модели ARPA с 50 000 слов

Я хочу создать файл языковой модели ARPA с почти 50 000 слов. Я не могу сгенерировать языковую модель, передав текстовый файл в CMU Language Tool. Есть ли еще какая-либо ссылка, по которой я могу получить ...

speech-recognition cmusphinx n-gram language-model

вопрос задан: 16 July 2016 15:14

0

ответов

Поиск по имени файла с ElasticSearch

Я хочу использовать ElasticSearch для поиска имен файлов (а не содержимого файла). Поэтому мне нужно найти часть имени файла (точное совпадение, нечеткий поиск). Пример: у меня есть файлы со следующим ...

n-gram elasticsearch lucene

вопрос задан: 8 October 2014 07:39

0

ответов

Elasticsearch: найти совпадение подстроки

Я хочу выполнить как точное совпадение слов, так и частичное совпадение слов / подстрок. Например, если я ищу «мужская бритва», то в результате я смогу найти «мужскую бритву». Но в случае, если я ...

n-gram stringtokenizer substring elasticsearch autocomplete

вопрос задан: 23 April 2014 12:11

0

ответов

Как мне объединить CSS text-shadow и «background-image: -webkit-gradient»

Я пытаюсь добиться эффекта градиента + текстовой тени в Chrome / Safari с помощью текста CSS -shadow и комбинацию text-shadow и background-image: -webkit-gradient, см. пример blw. Я могу только сделать ...

algorithm n-gram qwerty text-classification

вопрос задан: 26 October 2013 19:07

0

ответов

Какой алгоритм мне нужен, чтобы найти n-граммы?

Какой алгоритм используется для поиска n-граммов? Предположим, что мои входные данные представляют собой массив слов и размер нограмм, которые я хочу найти, какой алгоритм мне следует использовать? Я прошу код, с предпочтением ...

r n-gram

вопрос задан: 12 April 2013 17:20

0

ответов

Фильтр n-грамм токенов ElasticSearch не находит частичные слова

Я экспериментировал с ElasticSearch для нового моего проекта. Я установил анализаторы по умолчанию на использование фильтра токенов ngram. Это мой файл elasticsearch.yml: index: анализ: ...

n-gram elasticsearch

вопрос задан: 28 January 2013 22:00

0

ответов

Как сгенерировать n-граммы в scala?

Я пытаюсь закодировать алгоритм диссоциированной печати, основанный на n-граммах в scala. Как сгенерировать n-грамм для больших файлов: Например, для файла, содержащего «пчела - это пчела пчел». Во-первых ...

scala n-gram

вопрос задан: 28 September 2012 08:20

0

ответов

Создание N-грамма из предложения

Как сгенерировать n-грамм строки, например: String Input = "Это моя машина." Я хочу сгенерировать n-грамм с помощью этого ввода: Input Ngram size = 3 Output should be: This является мой машина Это мой моя машина ...

java lucene nlp n-gram

вопрос задан: 18 September 2012 14:02

0

ответов

Elasticsearch -EdgeNgram + подсветка + термин _вектор = плохие выделения

Когда я использую анализатор с edgengram (min=3, max=7, front )+ term _vector=with _position _offsets С документом, имеющим text = "CouchDB" Когда я ищу "couc" Я выделил "cou", а не "...

elasticsearch java search lucene n-gram

вопрос задан: 3 July 2012 02:19

0

ответов

Когда важны n -граммов (n>3 ), а не просто биграммы или триграммы?

Мне просто интересно, каково использование n -граммов (n>3)(и частоты их появления ), учитывая вычислительные затраты на их вычисление. Существуют ли какие-либо приложения, в которых биграммы или триграммы...

data-mining nlp nltk n-gram

вопрос задан: 24 April 2012 08:41

0

ответов

Python:Уменьшение использования памяти словарем

Я пытаюсь загрузить в память пару файлов. Файлы имеют любой из следующих 3-х форматов:string TAB int строка TAB с плавающей запятой in TAB с плавающей запятой. Действительно, это файлы статики ngram, в...

compression dictionary python memory n-gram

вопрос задан: 22 April 2012 04:10

0

ответов

униграмма с использованием python

Я пытаюсь сгенерировать униграмму из текстового файла. Но отображается только биграмма для первой строки данного файла. Я хочу показать униграмму для всех предложений в файле. import string; import sys; ...

python n-gram

вопрос задан: 29 November 2011 15:06

0

ответов

Алгоритм NLP для «заполнения» условий поиска

Я пытаюсь написать алгоритм (который я Предполагаю, будет полагаться на методы обработки естественного языка), чтобы «заполнить» список условий поиска. Вероятно, есть название для такого рода вещей, которое я '...

python nlp n-gram

вопрос задан: 29 September 2011 23:30

0

ответов

Быстрый расчет n-граммов

Я использую NLTK для поиска n-граммов в корпусе, но это требует в некоторых случаях очень долго. Я заметил, что вычисление n-граммов не является редкостью в других пакетах (очевидно, в Haystack есть ...

python nlp nltk n-gram

вопрос задан: 29 September 2011 10:51

0

ответов

Извлечь ключевые фразы из текста (диаграммы из 1-4 слов)

Как лучше всего извлекать ключевые фразы из блока текста? Я пишу инструмент для извлечения ключевых слов: что-то вроде этого. Я нашел несколько библиотек для Python и Perl для извлечения n-граммов, но ...

javascript keyword n-gram

вопрос задан: 23 August 2011 00:46

0

ответов

Использование Марковские модели для преобразования заглавных букв в смешанные и родственные задачи

I ' Я думал об использовании методов Маркова для восстановления недостающей информации в тексте на естественном языке. Восстановить заглавные буквы в смешанном регистре. Restore accents / diacritics to languages which should ...

unicode nlp ambiguity n-gram markov-models

вопрос задан: 6 August 2011 16:27

0

ответов

Моделирование n-грамм с помощью java hashmap

Мне нужно смоделировать набор n-граммов (последовательности из n слов) и их контексты (слова, которые появляются рядом с n-граммой вместе с их частотой). Моя идея заключалась в следующем: открытый класс Ngram {...

java string hashmap n-gram

вопрос задан: 5 May 2011 15:09