Стратегии распознавания имен собственных в обработке естественного языка

Обратите внимание на следующие пункты:

  1. Все ресурсы на стороне клиента доступны для просмотра, хотя вы можете сделать их легко читаемыми с помощью javascript, и большую часть ваших кодов лучше выполнять на стороне сервера. [ 1114]

  2. Вам нужно знать о том, что любят поисковые системы, если ваше приложение является общедоступным веб-сайтом & amp; будут проиндексированы этими поисковыми системами, поскольку некоторые поисковые системы не переходят на веб-страницы, содержащие только код JavaScript.

  3. Вы можете создавать изображения без тегов , используя Свойство фонового изображения CSS .

  4. есть несколько полезных библиотек, чтобы сделать ваш код более читабельным, например Closure Compiler Service & amp; JSFuck & amp; JS Packers , хотя лучше сделать это самостоятельно и просто добавить подобные методы в свои знания, отметив, что это увеличит размер вашего кода.

  5. и вообще нет источника белой страницы, он должен содержать как минимум

4 ответа

Задачу определения надлежащей части речи для слова в тексте называют Метками Части речи. Морфологический анализатор Брилла, например, использует смесь словаря (словарь) слова и контекстные правила. Я полагаю, что некоторые важные начальные слова словаря для этой задачи являются стоп-словами. После того как у Вас есть (главным образом корректные) части речи для Ваших слов, можно начать создавать большие структуры. Эта ориентированная на промышленность книга дифференцируется между распознаванием именных групп (NPs) и распознаванием именованных сущностей. Об учебниках: понимание естественного языка Allen является пользой, но немного датированный, книга. Основы статистической обработки естественного языка являются хорошим введением в статистическую обработку естественного языка. Обработка речи и Обработка языка являются немного более строгими и возможно более авторитетными. Ассоциация для Компьютерной лингвистики является ведущим научным сообществом на компьютерной лингвистике.

11
ответ дан 1 December 2019 в 22:08
поделиться

Помимо основанного на словаре подхода, два других приезжают по моему мнению:

  • Основанные на шаблоне подходы (в простой форме: что-либо, что использовано для своей выгоды, является именем собственным),
  • Подходы машинного обучения (отмечают имена собственные в тренировочном корпусе и обучают классификатор),

Поле главным образом называют выделением именованных сущностей и часто считают подполем извлечения информации. Хорошая начальная точка для различных полей обработки естественного языка обычно согласно главе в Оксфордском Руководстве Компьютерной лингвистики:

Oxford Handbook of Computational Linguistics
(источник: oup.com)

6
ответ дан 1 December 2019 в 22:08
поделиться

Попытайтесь искать "выделение именованных сущностей" - это - термин, это используется в литературе обработки естественного языка для этого вида вещи.

4
ответ дан 1 December 2019 в 22:08
поделиться

Это зависит от того, под чем Вы подразумеваете основанный на словаре.

Например, одна стратегия состояла бы в том, чтобы взять вещи, которые не находятся в словаре и пытаются продолжиться при условии, что они - имена собственные. Если это приводит к разумному синтаксическому анализу, полагайте, что предположение временно проверило, и продолжайте идти, иначе придите к заключению, что они не.

Другие идеи:

  • В подчиненном положении любым простым предметом без детерминатива является хороший кандидат.
  • Так же в предложных группах
  • В любом положении основанием притяжательного детерминатива (например, Входят "в сестру Bob's") является хороший кандидат

- MarkusQ

2
ответ дан 1 December 2019 в 22:08
поделиться
Другие вопросы по тегам:

Похожие вопросы: