Грамматика естественного языка и вводимые пользователями имена

Некоторые языки, особенно славянские языки, изменяют окончания имен людей согласно грамматическому контексту. (Для тех из Вас, кто знает грамматику или изученные языки, которые делают это к словам, таким как немецкий язык или русский язык, и помочь с поисковыми ключевыми словами, я говорю об отклонении существительного.)

Это является, вероятно, самым легким с рядом примеров (на польском языке, для сохранения проблемы совершенно другого алфавита):

  1. Dorothy видела кошку — Dorota zobaczyła Кота
  2. Кошка видела Dorothy — Kot zobaczył Dorotę
  3. Это - кошка Dorothy — Для шутливости kot Doroty
  4. Я дал кошку Dorothy — Dałam Dorotie Кота
  5. Я вышел на прогулку с Dorothy — Poszłam na распорная деталь z Dorotą
  6. “Привет, Dorothy!” — “Witam, Doroto!”

Теперь, если, в этих примерах, имя здесь должно было быть введено пользователями, который представляет мир кошмаров грамматики. Значительно, если я пошел для Katie (Kasia), примеры не непосредственно сопоставимы — 3, и 4 и Kasi, а не *Kasy и *, Kasie — и штекерные имена будет совершенно отличаться снова.

Я предполагаю, что кто-то справился с этой ситуацией прежде, но мой Google-fu, кажется, слаб сегодня. Я могу найти много ссылок об обработке естественного языка, но я don'think, это вполне, что я хочу. Быть ясным: я только когда-либо собираюсь иметь одно вводимое пользователями имя на пользователя, и я собираюсь, должен уменьшить их в известные конфигурации — у меня будет локализованный текст, который будет иметь заполнителей чем-то как {name nominative} и {name dative}, ради аргумента. Я действительно не хочу должным быть делать лексический анализ текста для разработки материала, я должен буду только когда-либо уменьшать то одно вводимое пользователями имя.

У любого есть любые рекомендации о том, как сделать это или сделать, я должен начать заходить в агентства по локализации; o)


Дополнительные материалы для чтения (все на Википедию) для заинтересованного:

Отказ от ответственности: Я знаю, что это происходит на многих других языках; выделение языков Slavic состоит просто в том, потому что у меня есть проект, который будет локализованным на некоторые славянские языки.

6
задан Lev Khomich 28 April 2012 в 20:58
поделиться

2 ответа

Мне кажется, вам нужен движок морфологии для полировки. Короче говоря, они могут выполнять как анализ, так и генерацию от поверхностной формы (то, что мы читаем и пишем) до некоторой абстрактной формы, такой как «Dorothy + FEM + DAT», принимая во внимание как склонения, так и фонологию.

Взгляните сюда (я не отполирован, но выглядит хорошо, и, самое главное, у него есть загрузки :)) http://nlp.ipipan.waw.pl/~wolinski/morfeusz/

Здесь несколько вводных по этой теме.

2
ответ дан 17 December 2019 в 18:11
поделиться

на немецком языке изменена только статья: Der, Die, Das. И в именах их нет. Так что в немецком нет ничего особенного. (кстати, не славянский)

о русском (моем родном).Вся эта концепция смены концовки болезненна для обработки, но (!) если у вас есть только имена людей и есть подсказки вроде {имя именительный падеж}, это относительно просто. Большинство женских имен имеют общую структуру: корень + а / я (а / я), и каждая подсказка подскажет, как изменить окончание. Я вижу, что по-польски то же самое: Dorot | a, Dorot | ę. Мужские имена тоже простые. Они либо следуют точно таким же правилам (если заканчиваются на / ya (а / я)), либо если они заканчиваются на j / y (как мое имя Андрей), отображение немного отличается.

1
ответ дан 17 December 2019 в 18:11
поделиться
Другие вопросы по тегам:

Похожие вопросы: