4
ответа

“Решатель анаграммы” на основе статистики, а не словаря/таблицы?

Моя проблема концептуально подобна решению анаграмм, кроме я не могу только использовать поиск по словарю. Я пытаюсь найти вероятные слова, а не реальные слова. Я создал n-граммную модель (для...
вопрос задан: 7 May 2014 23:36
3
ответа

Простая реализация n-граммы, tf-idf и подобия Косинуса в Python

Я должен сравнить документы, хранившие в DB и придумывать счет подобия между 0 и 1. Метод, который я должен использовать, должен быть очень простым. Реализация ванильной версии n-грамм (где это...
вопрос задан: 25 October 2012 19:00
3
ответа

Поисковый модуль Drupal может искать подстроку? (Частичный Поиск)

Базовый поисковый модуль Drupal, только ищет ключевые слова, например, "тестовую систему". Я могу заставить его искать с подстрокой, например, "sandw" и возвратить мои тестовые результаты? Возможно, существует плагин, который делает эт
вопрос задан: 19 April 2010 00:08
2
ответа

Как отфильтровать строковые элементы в списке, которые встречаются в более длинных элементах в том же списке Python?

У меня есть список, который содержит такие элементы, как [«любовь», «волосы», «свет», «фен», «яркий свет», «яркий фен»] и хочу отфильтровать одно- или двойные слова, если они встречаются в триграмм. Как ...
вопрос задан: 4 March 2019 04:14
2
ответа

N-граммы: Объяснение + 2 приложения

Я хочу реализовать некоторые приложения с n-граммами (предпочтительно в PHP). Какой тип n-грамм достаточен больше для большинства целей? Уровень слова или символьная n-грамма уровня? Как Вы могли реализовать...
вопрос задан: 23 June 2009 13:21
1
ответ

Извлечение Ngrams с ml.net

У меня есть следующий конвейер: var mlContext = new MLContext (); var data = mlContext.Data.LoadFromEnumerable (new [] {new Input {Message = "один два три один два ...
вопрос задан: 7 March 2019 09:04
1
ответ

Невозможно получить правильный результат от эластичного поиска на основе запроса и токенизации документа

Я пытаюсь реализовать поисковую систему, в которой мне нужно использовать Edge NGRAM Tokenizer. Настройки для создания индекса показаны ниже. Я использовал один и тот же токенизатор как для документов, так и для поисковых запросов. (...
вопрос задан: 19 January 2019 14:46
1
ответ

Удаление стоп-фраз из DocumentTermMatrix

Ниже я делаю базовое моделирование темы для «грубых» данных. Я знаю, что могу удалить стоп-слова, используя tm_map, но я не могу понять, как это сделать после того, как происходит токенизация bigram. библиотека (topicmodels) ...
вопрос задан: 13 July 2018 19:19
0
ответов

Как создать модель языка LSTM или RNN N-GRAM в API Tensorflow C ++

Как я могу создать языковую модель LSTM или RNN N-Gram в Tensorflow C ++ API? Моя цель состоит в том, чтобы получить количество вхождений слова (ngram), используя модель LSTM или RNN.
вопрос задан: 19 January 2019 18:56
0
ответов

Существуют ли языковые модели для сумок вместо последовательностей?

Я уверен, что это существует, но, к сожалению, я не могу найти правильные ключевые слова для поиска чего-либо в Google Scholar или тому подобном: в классической языковой модели вы считаете последовательности и по этим подсчетам ...
вопрос задан: 17 January 2019 14:59
0
ответов

Как проиндексировать всю подстроку слова в Elastic Search, кроме использования ngram

Я ищу средство для поиска подстроки внутри фразы или текста. Я знаю, что могу использовать токенайзер ngram и устанавливать min-грамм и max-грамм для достижения этого. Но так как упругий поиск показывает обесценивание ...
вопрос задан: 17 January 2019 10:42
0
ответов

Эффективное извлечение 1-5 грамм с питоном

У меня есть огромные файлы по 3 000 000 строк, и каждая строка содержит 20-40 слов. Я должен извлечь от 1 до 5 нграмм из корпуса. Мои входные файлы представляют собой простой текстовый токен, например: это предложение в строке foo. ...
вопрос задан: 23 May 2017 12:01
0
ответов

Анализ имён n-грамм на не-английских языках (CJK и т.д.)

Я работаю над дедупликацией базы данных людей. Для первого прохода я следую основному 2-этапному процессу, чтобы избежать операции O(n^2)по всей базе данных, как описано в литературе. Во-первых, я "...
вопрос задан: 23 May 2017 11:49
0
ответов

Создание файла языковой модели ARPA с 50 000 слов

Я хочу создать файл языковой модели ARPA с почти 50 000 слов. Я не могу сгенерировать языковую модель, передав текстовый файл в CMU Language Tool. Есть ли еще какая-либо ссылка, по которой я могу получить ...
вопрос задан: 16 July 2016 15:14
0
ответов

Поиск по имени файла с ElasticSearch

Я хочу использовать ElasticSearch для поиска имен файлов (а не содержимого файла). Поэтому мне нужно найти часть имени файла (точное совпадение, нечеткий поиск). Пример: у меня есть файлы со следующим ...
вопрос задан: 8 October 2014 07:39
0
ответов

Elasticsearch: найти совпадение подстроки

Я хочу выполнить как точное совпадение слов, так и частичное совпадение слов / подстрок. Например, если я ищу «мужская бритва», то в результате я смогу найти «мужскую бритву». Но в случае, если я ...
вопрос задан: 23 April 2014 12:11
0
ответов

Как мне объединить CSS text-shadow и «background-image: -webkit-gradient»

Я пытаюсь добиться эффекта градиента + текстовой тени в Chrome / Safari с помощью текста CSS -shadow и комбинацию text-shadow и background-image: -webkit-gradient, см. пример blw. Я могу только сделать ...
вопрос задан: 26 October 2013 19:07
0
ответов

Какой алгоритм мне нужен, чтобы найти n-граммы?

Какой алгоритм используется для поиска n-граммов? Предположим, что мои входные данные представляют собой массив слов и размер нограмм, которые я хочу найти, какой алгоритм мне следует использовать? Я прошу код, с предпочтением ...
вопрос задан: 12 April 2013 17:20
0
ответов

Фильтр n-грамм токенов ElasticSearch не находит частичные слова

Я экспериментировал с ElasticSearch для нового моего проекта. Я установил анализаторы по умолчанию на использование фильтра токенов ngram. Это мой файл elasticsearch.yml: index: анализ: ...
вопрос задан: 28 January 2013 22:00
0
ответов

Как сгенерировать n-граммы в scala?

Я пытаюсь закодировать алгоритм диссоциированной печати, основанный на n-граммах в scala. Как сгенерировать n-грамм для больших файлов: Например, для файла, содержащего «пчела - это пчела пчел». Во-первых ...
вопрос задан: 28 September 2012 08:20
0
ответов

Создание N-грамма из предложения

Как сгенерировать n-грамм строки, например: String Input = "Это моя машина." Я хочу сгенерировать n-грамм с помощью этого ввода: Input Ngram size = 3 Output should be: This является мой машина Это мой моя машина ...
вопрос задан: 18 September 2012 14:02
0
ответов

Elasticsearch -EdgeNgram + подсветка + термин _вектор = плохие выделения

Когда я использую анализатор с edgengram (min=3, max=7, front )+ term _vector=with _position _offsets С документом, имеющим text = "CouchDB" Когда я ищу "couc" Я выделил "cou", а не "...
вопрос задан: 3 July 2012 02:19
0
ответов

Когда важны n -граммов (n>3 ), а не просто биграммы или триграммы?

Мне просто интересно, каково использование n -граммов (n>3)(и частоты их появления ), учитывая вычислительные затраты на их вычисление. Существуют ли какие-либо приложения, в которых биграммы или триграммы...
вопрос задан: 24 April 2012 08:41
0
ответов

Python:Уменьшение использования памяти словарем

Я пытаюсь загрузить в память пару файлов. Файлы имеют любой из следующих 3-х форматов:string TAB int строка TAB с плавающей запятой in TAB с плавающей запятой. Действительно, это файлы статики ngram, в...
вопрос задан: 22 April 2012 04:10
0
ответов

униграмма с использованием python

Я пытаюсь сгенерировать униграмму из текстового файла. Но отображается только биграмма для первой строки данного файла. Я хочу показать униграмму для всех предложений в файле. import string; import sys; ...
вопрос задан: 29 November 2011 15:06
0
ответов

Алгоритм NLP для «заполнения» условий поиска

Я пытаюсь написать алгоритм (который я Предполагаю, будет полагаться на методы обработки естественного языка), чтобы «заполнить» список условий поиска. Вероятно, есть название для такого рода вещей, которое я '...
вопрос задан: 29 September 2011 23:30
0
ответов

Быстрый расчет n-граммов

Я использую NLTK для поиска n-граммов в корпусе, но это требует в некоторых случаях очень долго. Я заметил, что вычисление n-граммов не является редкостью в других пакетах (очевидно, в Haystack есть ...
вопрос задан: 29 September 2011 10:51
0
ответов

Извлечь ключевые фразы из текста (диаграммы из 1-4 слов)

Как лучше всего извлекать ключевые фразы из блока текста? Я пишу инструмент для извлечения ключевых слов: что-то вроде этого. Я нашел несколько библиотек для Python и Perl для извлечения n-граммов, но ...
вопрос задан: 23 August 2011 00:46
0
ответов

Использование Марковские модели для преобразования заглавных букв в смешанные и родственные задачи

I ' Я думал об использовании методов Маркова для восстановления недостающей информации в тексте на естественном языке. Восстановить заглавные буквы в смешанном регистре. Restore accents / diacritics to languages which should ...
вопрос задан: 6 August 2011 16:27
0
ответов

Моделирование n-грамм с помощью java hashmap

Мне нужно смоделировать набор n-граммов (последовательности из n слов) и их контексты (слова, которые появляются рядом с n-граммой вместе с их частотой). Моя идея заключалась в следующем: открытый класс Ngram {...
вопрос задан: 5 May 2011 15:09