неконтролируемое распознавание именованных объектов (NER) с настраиваемым словарем для предложений перекрестных ссылок в Java

Я смотрю ing для библиотеки Java, которая может выполнять распознавание именованных сущностей (NER) с помощью настраиваемого контролируемого словаря без необходимости предварительно помеченных обучающих данных. Я искал некоторые на SE, но большинство вопросов довольно неопределенны.

Рассмотрим следующий вариант использования:

  • редактор вводит статьи в CMS (около 500 слов).
  • текст может содержать ссылки (в виде обычного текста) на объекты определенного домена. например:
    • названия достопримечательностей, таких как бары, рестораны, районы и т. д.
  • существует контролируемый словарь этих сущностей (около 5.000 сущностей).
    • Я предполагаю, что сущность будет -кортежем в словаре
  • после завершения текста пользователь сможет сохранить документ.
  • Это запускает рабочий процесс для сканирования фрагмента текста по словарю путем сравнения с именем объекта. Необязательно иметь 100% совпадение: 97% на Jarao-winkler или что-то еще (я не знаком с тем, что использует NER алгоритма), может быть достаточно, мне нужно, чтобы это было настраиваемым.
  • Хиты возвращаются на серверную сторону контроллера. Это, в свою очередь, возвращает клиенту JSON, содержащий объекты, которые представлены в виде предлагаемых перекрестных ссылок для редактора.

В идеале, я ищу проект, который использует NRE, чтобы предлагать перекрестные ссылки в среде CMS для совмещения. (Я уверен, что плагины для wordpress существуют, например), не уверен, существует ли что-то подобное в Java.

Все другие более общие указатели на NRE-библиотеки, которые работают с управляемыми пользовательскими словарями, также приветствуются.

6
задан Geert-Jan 5 October 2011 в 15:02
поделиться