Программное обеспечение для склонения [закрытого] английского языка

Question

Программное обеспечение для склонения [закрытого] английского языка

5

linguistics

задан Kara 12 December 2013 в 05:27

2 ответа

Другие вопросы по тегам:

linguistics

Похожие вопросы:

score 2 · Answer 1

Я ничего не знаю.

Однако вы можете взглянуть на nltk.org (Набор инструментов для естественного языка), который представляет собой библиотеку Python для обработки естественного языка, которая имеет множество функций, которые потенциально могут быть очень полезны, например POS (часть речи) тегирование.

Это, конечно, если вы не против написать такое программное обеспечение самостоятельно, извините, если это не имеет отношения к тому, что вы хотите сделать.

score 1 · Answer 2

Я тоже ничего не знаю, но постараюсь дать несколько советов.

Snowball может нормализовать многие слова, используя систему образования корней porter , но окончания часто бывают неправильными. Что можно было бы сделать, так это использовать списки слов, например, из Moby CROSSWD.TXT , используйте снежный ком, чтобы найти общие корни и угадать время от окончания (например, заканчивается на ed или d может быть прошедшим временем и т. д. ) PyStemmer имеет оболочки для python, если это то, что вы используете, но я не смог найти никаких двоичных файлов Windows, поэтому для моих целей мне пришлось создать его сам.
Имейте в виду, что этот метод подвержен ошибкам и нормализует, например, пытается и пытается нормализовать до tri , и есть много исключений, когда это не работает.В некоторых реализациях (есть одна в nltk, как я полагаю, как упоминалось houbysoft) есть много заранее запрограммированных исключений, но проблема в том, что английский язык настолько нерегулярный, что он исправляет перегиб некоторых слов, но нарушает другие.
Другой способ - проанализировать данные WordNet , которые, как мне кажется, содержат «классы» слов по склонениям и исключения, когда слова не соответствуют правилам. Это довольно сложная задача, я попытался разобрать ее с помощью различных man страниц и мне пока не удалось (см. http: // wordnet. princeton.edu/man/morphy.7WN.html для получения информации о синтаксическом анализе флексий.)
Вы можете попробовать проанализировать орфографические данные из OpenOffice или чего-то подобного, поскольку они обычно группируют слова вместе в "классы" ", это особенно привлекательно для региональных языков (например, австралийский / британский английский и т. д.), хотя он не сообщает вам , в каком перегибе и т. д. находится каждое слово.

В любом случае, я надеюсь, что это поможет, я думаю, что Библиотека nltk - хорошее место для начала, поскольку в ней есть переносчик (и различные другие реализации стемминга) и множество примеров кода.

См. Также Как выполнить словосочетание «стемминг» или «лемматизацию»? .