8
ответов

Как я делаю выделение основы слова или Лемматизацию?

Я попробовал PorterStemmer и Снежок, но оба не работают над всеми словами, пропуская некоторые очень общие. Мои тестовые слова: "выполнение кошек выполнило сообщества сообщества кактусов кактусов кактуса", и оба добираются...
вопрос задан: 23 May 2017 11:55
6
ответов

Можно ли программно обнаружить плюрализацию английских слов и получить ли форму единственного числа?

Учитывая некоторое (английское) слово, которое мы примем, множественное число, действительно ли возможно получить форму единственного числа? Я хотел бы избежать таблиц поиска/словаря, если это возможно. Некоторые примеры: Примеры-> Пример...
вопрос задан: 30 June 2012 04:57
4
ответа

Стемминг - примеры кода или проекты с открытым исходным кодом?

Стемминг - что-то, что это необходимо в метках систем. Я использую восхитительный, и у меня нет времени, чтобы управлять и сократить мои теги. Я немного более осторожен со своим блогом, но это не прекрасно. Я пишу...
вопрос задан: 27 February 2009 15:00
3
ответа

Токенизатор, удаление стоп-слова, стемминг в Java

Я ищу класс или метод, который берет длинную строку многих 100 с слов и маркирует, удаляет стоп-слова и основы для использования в системе IR. Например: "Большая кошка, сказал 'Ваш...
вопрос задан: 20 February 2013 05:07
2
ответа

& lt; генераторный объект & lt; ген xpr & gt; при 0x11ad5dbf8 & gt; вместо словных стеблей? [Дубликат]

Следующий код должен выводить слова стека, но вместо этого я получаю объект-генератор. из nltk.stem import SnowballStemmer english_stemmer = SnowballStemmer ('english') words = ["предположительно", "предположим", ...
вопрос задан: 9 May 2014 14:57
2
ответа

Еврей Lucene анализатор

Кто-либо знает, существует ли каждый? Я гуглил это в течение многих месяцев... Спасибо
вопрос задан: 30 June 2009 14:01
2
ответа

Каков лучший алгоритм стемминга “под ключ”? [закрытый]

Мне нужен хороший алгоритм стемминга для проекта, я продолжаю работать. Было предложено, чтобы я посмотрел на стеммер Портера. Когда я проверил страницу на стеммер Портера, я нашел, что это удерживается от использования теперь...
вопрос задан: 22 October 2008 16:05
1
ответ

Получить список всех слов, которые могут быть связаны с конкретным [дублированием]

Мне было интересно, можно ли получить список более длинных слов, которые могут быть связаны с одним и тем же словом. В основном у нас есть список слов, которые мы могли бы сделать, и мы хотели бы создать новый корпус со всеми ...
вопрос задан: 23 July 2015 19:30
0
ответов

Обратный процесс стемминга

Я использую анализатор lucene snowball для выполнения стемминга. В результате не получается осмысленных слов. Я обратился к этому вопросу. Одним из решений является использование базы данных, которая содержит карту между ...
вопрос задан: 23 May 2017 12:06
0
ответов

Преобразование множественного числа в единственное число в текстовом файле с помощью Python

У меня есть текстовые файлы, которые выглядят так: слово, 23 слова, 2 теста, 1 тесты, 4 И я хочу, чтобы они выглядели так: слово, 23 слова, 2 теста, 1 тест, 4 Я хочу быть в состоянии принять TXT-файл в Python и ...
вопрос задан: 13 July 2015 16:40
0
ответов

Влияние стемминга на частоту термина?

Как термин частоты (TF )и обратная частота документа (IDF )затронуты удалением стоп-слова -и выделением корней? Спасибо!
вопрос задан: 11 March 2014 18:36
0
ответов

Создание английских слов с помощью Lucene

Я обрабатываю некоторые английские тексты в приложении Java, и мне нужно их ограничить. Например, из текста «удобства / удобства» мне нужно получить «аменит». Функция выглядит так: String stemTerm (...
вопрос задан: 21 May 2013 13:19
0
ответов

ElasticSearch Stemming

Я использую ElasticSerach и хочу настроить базовую основу для английского языка. Таким образом, Fighter возвращает бой или любое слово, содержащее корень бой. Я немного запутался, как это реализовать. Я...
вопрос задан: 30 January 2013 14:26
0
ответов

есть ли какой-нибудь стеммер для индийского языка [закрыто]

есть ли какие-либо реализации стеммеров для индийских языков, например (хинди, телугу) ....
вопрос задан: 8 October 2012 04:30
0
ответов

Snowball Stemmer только связан с последним словом

Я хочу стебель документы в корпусе простых текстовых документов с использованием пакета TM в R. Когда я применяю функцию SnowballstemMer для всех документов корпуса, только последнее слово Каждый ...
вопрос задан: 11 September 2012 08:16
0
ответов

R, определяющее строку/документ/корпус

Я пытаюсь сделать некоторые выводы в R, но, похоже, он работает только с отдельными документами. Моя конечная цель — матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример :...
вопрос задан: 9 August 2012 04:32
0
ответов

Нужен модуль python для создания основы текстовых документов

Мне нужен хороший модуль python для создания основы текстовых документов на этапе предварительной -обработки. Я нашел этот http://pypi.python.org/pypi/PyStemmer/1.0.1, но не могу найти документацию по ссылке...
вопрос задан: 29 April 2012 03:11
0
ответов

Выделение основы слова вместо выделения корня в R

Есть ли способ получить базовое слово вместо корневого слова при выделении корня с использованием NLP в R? Код:> # Загрузка библиотек > библиотека (тм) > библиотека (слэм) >> # Вектор > Vec = c ("счастье, счастье ...
вопрос задан: 13 July 2011 01:59
0
ответов

Импорт WordNet в NLTK

Я хочу импортировать словарь wordnet, но когда я импортирую WordNet из словаря, я вижу эту ошибку: для l в открытом (WNSEARCHDIR + '/ lexnames'). Readlines () : IOError: [Errno 2] Нет такого файла или каталога: 'C: \ ...
вопрос задан: 12 July 2011 09:34
0
ответов

Мне нужен стеммер Java Arabic

Я ищу стеммер Java для арабского языка. Я нашел библиотеку под названием "AraMorph", но ее вывод неконтролируемый, и она формирует слова, которые нежелательны. Есть ли другой стеммер для арабского языка ...
вопрос задан: 11 July 2011 18:56
0
ответов

Проблема с остановкой Lucene.NET

У меня возникла проблема при использовании SnowBallAnalyzer в Lucene.NET. Он отлично работает для некоторых слов, но для других он вообще не дает никаких результатов, и я не уверен, как вникнуть в это дальше, чтобы ...
вопрос задан: 31 May 2011 19:03
0
ответов

Stop word removal in Javascript

HI I am looking for a library that'll remove stop words from text in Javascript, my end goal is to calculate tf-idf and then convert the given document into vector space, and all of this is Javascript....
вопрос задан: 12 April 2011 07:12
0
ответов

Как настроить стемминг в Solr?

Я добавляю в индекс solr: "American". Когда я ищу по "Америке", результатов нет. Как следует настроить schema.xml для получения результатов? текущая конфигурация:
вопрос задан: 12 March 2011 22:27
0
ответов

SQL Server против MySQL: CONTAINS (*, 'FORMSOF (THESAURUS, word)')

Я в шоке. Последние 3-4 дня я потратил на выяснение того, как я могу реализовать стемминг (и поиск синонимов) в mysql, когда я вижу в SQL Server запрос невероятно простой: выберите * из вкладки, где ...
вопрос задан: 12 February 2011 05:43
0
ответов

Библиотека стемминга в java [закрыто]

Есть ли библиотека для стемминга in java!?
вопрос задан: 14 December 2010 22:29