Я попробовал PorterStemmer и Снежок, но оба не работают над всеми словами, пропуская некоторые очень общие. Мои тестовые слова: "выполнение кошек выполнило сообщества сообщества кактусов кактусов кактуса", и оба добираются...
Учитывая некоторое (английское) слово, которое мы примем, множественное число, действительно ли возможно получить форму единственного числа? Я хотел бы избежать таблиц поиска/словаря, если это возможно. Некоторые примеры: Примеры-> Пример...
Стемминг - что-то, что это необходимо в метках систем. Я использую восхитительный, и у меня нет времени, чтобы управлять и сократить мои теги. Я немного более осторожен со своим блогом, но это не прекрасно. Я пишу...
Я ищу класс или метод, который берет длинную строку многих 100 с слов и маркирует, удаляет стоп-слова и основы для использования в системе IR. Например: "Большая кошка, сказал 'Ваш...
Следующий код должен выводить слова стека, но вместо этого я получаю объект-генератор. из nltk.stem import SnowballStemmer english_stemmer = SnowballStemmer ('english') words = ["предположительно", "предположим", ...
Мне нужен хороший алгоритм стемминга для проекта, я продолжаю работать. Было предложено, чтобы я посмотрел на стеммер Портера. Когда я проверил страницу на стеммер Портера, я нашел, что это удерживается от использования теперь...
Мне было интересно, можно ли получить список более длинных слов, которые могут быть связаны с одним и тем же словом. В основном у нас есть список слов, которые мы могли бы сделать, и мы хотели бы создать новый корпус со всеми ...
Я использую анализатор lucene snowball для выполнения стемминга. В результате не получается осмысленных слов. Я обратился к этому вопросу. Одним из решений является использование базы данных, которая содержит карту между ...
У меня есть текстовые файлы, которые выглядят так: слово, 23 слова, 2 теста, 1 тесты, 4 И я хочу, чтобы они выглядели так: слово, 23 слова, 2 теста, 1 тест, 4 Я хочу быть в состоянии принять TXT-файл в Python и ...
Я обрабатываю некоторые английские тексты в приложении Java, и мне нужно их ограничить.
Например, из текста «удобства / удобства» мне нужно получить «аменит». Функция выглядит так: String stemTerm (...
Я использую ElasticSerach и хочу настроить базовую основу для английского языка. Таким образом, Fighter возвращает бой или любое слово, содержащее корень бой. Я немного запутался, как это реализовать. Я...
Я хочу стебель документы в корпусе простых текстовых документов с использованием пакета TM в R. Когда я применяю функцию SnowballstemMer для всех документов корпуса, только последнее слово Каждый ...
Я пытаюсь сделать некоторые выводы в R, но, похоже, он работает только с отдельными документами. Моя конечная цель — матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример :...
Мне нужен хороший модуль python для создания основы текстовых документов на этапе предварительной -обработки. Я нашел этот http://pypi.python.org/pypi/PyStemmer/1.0.1, но не могу найти документацию по ссылке...
Есть ли способ получить базовое слово вместо корневого слова при выделении корня с использованием NLP в R? Код:> # Загрузка библиотек
> библиотека (тм)
> библиотека (слэм)
>> # Вектор
> Vec = c ("счастье, счастье ...
Я хочу импортировать словарь wordnet, но когда я импортирую WordNet из словаря, я вижу эту ошибку: для l в открытом (WNSEARCHDIR + '/ lexnames'). Readlines () :
IOError: [Errno 2] Нет такого файла или каталога: 'C: \ ...
Я ищу стеммер Java для арабского языка. Я нашел библиотеку под названием "AraMorph", но ее вывод неконтролируемый, и она формирует слова, которые нежелательны. Есть ли другой стеммер для арабского языка ...
У меня возникла проблема при использовании SnowBallAnalyzer в Lucene.NET. Он отлично работает для некоторых слов, но для других он вообще не дает никаких результатов, и я не уверен, как вникнуть в это дальше, чтобы ...
HI I am looking for a library that'll remove stop words from text in Javascript, my end goal is to calculate tf-idf and then convert the given document into vector space, and all of this is Javascript....
Я добавляю в индекс solr: "American". Когда я ищу по "Америке", результатов нет. Как следует настроить schema.xml для получения результатов? текущая конфигурация: solrstemming
Я в шоке. Последние 3-4 дня я потратил на выяснение того, как я могу реализовать стемминг (и поиск синонимов) в mysql, когда я вижу в SQL Server запрос невероятно простой: выберите * из вкладки, где ...