Какой стеммер слова я должен использовать в nltk?

Я не эксперт JavaScript, но похоже, что необходимо было бы циклично выполниться через элементы и считать их, так как Объект не имеет метода длины:

var element_count = 0;
for (e in myArray) {  if (myArray.hasOwnProperty(e)) element_count++; }

@palmsey: Объективности ради по отношению к OP документация JavaScript на самом деле явно относится к использованию переменных текстового объекта этим способом как "ассоциативные массивы".

9
задан speciousfool 12 August 2009 в 08:02
поделиться

2 ответа

RSLP предназначен для португальского языка. Думаю, ты хочешь английский. Regexp потребует от вас разработки собственных выражений стемминга, поэтому я думаю, что это тоже можно игнорировать. WordnetStemmer требует, чтобы вы знали часть речи для слова, поэтому вам нужно сначала сделать теги pos, чтобы их использовать. Я использовал алгоритм стемминга портера, и он довольно хорош, но алгоритм Ланкастера новее, так что он может быть лучше. Вы можете попробовать использовать комбинацию стеммеров, где вы выбираете самый короткий стебель из каждого стеммера. В любом случае, суть в том, что PorterStemmer - хороший выбор по умолчанию.

7
ответ дан 4 December 2019 в 13:03
поделиться

Это может быть немного отлично, чем вы спрашиваете, но библиотека Nodebox Lingustics содержит функцию IS_EMOTIVE () , которая, похоже, проверяет слова, чтобы увидеть, являются ли они рекурсивные гипонимания определенных эмоциональных слов. От Commonsense.py

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

не стеммер, а интересный подход, чтобы проверить.

9
ответ дан 4 December 2019 в 13:03
поделиться
Другие вопросы по тегам:

Похожие вопросы: