каково истинное различие между лемматизацией по сравнению со стеммингом?

Я использовал Дракона, Диктуют в 1996 по той же причине как Вы. Это было медленное движение, но лучше, чем не работа. Я нашел легче записать код, заполнившись 4x8 белая доска кодом и затем заставив кого-то еще ввести его. Тогда я использовал DD для отладки.

И в то время как Вы в нем, Вы могли бы посмотреть Deborah Quilter книги о RSI. Они очень информативны.

108
задан TIMEX 24 November 2009 в 00:48
поделиться

3 ответа

Коротко и плотно: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and- лемматизация-1. html

Целью создания корней и лемматизации является сокращение флективных форм, а иногда и производных форм слова до общей базовой формы.

Однако эти два слова различаются по своему вкусу. Построение обычно относится к грубому эвристическому процессу, который обрезает концы слов в надежде на правильное достижение этой цели большую часть времени, и часто включает удаление деривационных аффиксов. Лемматизация обычно относится к правильному выполнению действий с использованием словарного запаса и морфологического анализа слов, обычно направленного на удаление только флективных окончаний и возвращение базовой или словарной формы слова, известной как лемма.

Документы NLTK:

Лемматизация и стемминг - частные случаи нормализации. Они определяют канонического представителя набора родственных словоформ.

107
ответ дан 24 November 2019 в 03:30
поделиться

Как указал MYYN, основание - это процесс удаления флективных, а иногда и деривационных аффиксов из базовой формы, с которой, вероятно, связаны все исходные слова. Лемматизация связана с получением единственного слова, которое позволяет сгруппировать множество изменяемых форм. Это сложнее, чем определение стебля, потому что оно требует учета контекста (и, следовательно, значения слова), в то время как стемминг игнорирует контекст.

Что касается того, когда вы будете использовать тот или другой, это вопрос того, насколько ваше приложение зависит от правильного понимания значения слова в контексте. Если вы делаете машинный перевод, вы, вероятно, захотите использовать лемматизацию, чтобы избежать неправильного перевода слова. Если вы выполняете поиск информации по более чем миллиарду документов, причем 99% запросов содержат от 1 до 3 слов, вы можете довольствоваться корнем.

Что касается NLTK, WordNetLemmatizer действительно использует часть речи, хотя вы должны предоставить ее (иначе по умолчанию используются существительные). Передача «голубь» и «v» дает «нырнуть», а «голубь» и «n» - «голубь».

13
ответ дан 24 November 2019 в 03:30
поделиться

ianacl
но я думаю, что Stemming - это грубый прием, который люди используют, чтобы свести все различные формы одного и того же слова к базовой форме, которая сама по себе не обязательно должна быть правильным словом
Что-то вроде Porter Stemmer может использовать простые регулярные выражения для исключения общих суффиксов слов

Лемматизация сводит слово к его фактической базовой форме, которая в случае неправильных глаголов может не выглядеть как входное слово
Что-то вроде Morpha, которое использует FST для приведения существительных и глаголов к их основной форме

3
ответ дан 24 November 2019 в 03:30
поделиться
Другие вопросы по тегам:

Похожие вопросы: