Токенизатор, удаление стоп-слова, стемминг в Java

Question

Токенизатор, удаление стоп-слова, стемминг в Java

Согласно Мифическому Месяцу Человека, главная причина люди добавления к последнему проекту делают, это позже - O (n^2) коммуникация наверху.

я испытал одно основное исключение к этому: если существуют [только 110] один человек на проекте, они почти всегда обрекаются. Добавление второго ускоряет его почти каждый раз. Поэтому коммуникация не служебная в этом случае - это - полезная возможность разъяснить Ваши мысли и сделать меньше глупых ошибок.

кроме того, поскольку Вы, очевидно, знали при регистрации вопроса совет с Мифического Месяца Человека только относится поздний проекты. Если Ваш проект не является уже поздним, довольно возможно, что добавление людей не сделает его позже. Принятие Вас делает это правильно, конечно.

20

java tokenize stemming stop-words

задан demongolem 20 February 2013 в 05:07
поделиться

3 ответа

AFAIK Lucene может делать то, что вы хотите. С помощью StandardAnalyzer и StopAnalyzer вы можете удалить стоп-слово. В сочетании с проектом Lucene contrib-snowball (который включает работу из Snowball ), вы также можете выполнить стемминг.

Но для стемминга также рассмотрите этот ответ на: Алгоритм выделения слов, который производит реальные слова

8

ответ дан 30 November 2019 в 01:23
поделиться

Это стандартные требования для обработки естественного языка, поэтому я бы посмотрел в таких наборах инструментов. Поскольку вам требуется Java, я бы начал с OpenNLP: http://opennlp.sourceforge.net/

Если вы можете посмотреть на другие языки, там также есть NLTK (Python)

Обратите внимание, что «ваш самый смешной парень, которого я знаю» не является стандартным синтаксисом, и поэтому труднее понять, чем «Ты самый смешной парень из всех, кого я знаю». Не невозможно, но намного сложнее. Я не знаю ни одной системы, которая бы приравняла «ваш» к «вы есть».

6

ответ дан 30 November 2019 в 01:23
поделиться

Вот полный список инструментов НЛП . Иногда имеет смысл создавать их самостоятельно, поскольку они будут легче, и у вас будет больше контроля над внутренней работой: используйте простое регулярное выражение для токенизации. Для стоп-слов просто вставьте список ниже или другой список в HashSet:

common-english-words.txt

Вот одна из многих Java-реализаций porter stemer ).

0

ответ дан 30 November 2019 в 01:23
поделиться

Другие вопросы по тегам:
java tokenize stemming stop-words

Похожие вопросы:

100
Скрытые функции Java - 23 May 2017 02:26

73
[Закрываются] скрытые функции Eclipse - 6 May 2012 17:23

51
Почему это считают плохой практикой для исключения фигурных скобок? [закрытый] - 19 August 2016 17:07

48
Проверьте, верно ли хотя бы два из трех логических значений - 25 January 2013 22:30

47
Какова самая частая проблема параллелизма, с которой Вы встретились в Java? [закрытый] - 5 August 2012 12:49

41
Что возможно в IntelliJ, что невозможно в Eclipse? - 6 January 2012 05:17

41
Как я могу объединить два массива в Java? - 22 December 2018 15:35

score 8 · Accepted Answer

AFAIK Lucene может делать то, что вы хотите. С помощью StandardAnalyzer и StopAnalyzer вы можете удалить стоп-слово. В сочетании с проектом Lucene contrib-snowball (который включает работу из Snowball ), вы также можете выполнить стемминг.

Но для стемминга также рассмотрите этот ответ на: Алгоритм выделения слов, который производит реальные слова