Я смотрю ing для библиотеки Java, которая может выполнять распознавание именованных сущностей (NER) с помощью настраиваемого контролируемого словаря без необходимости предварительно помеченных обучающих данных. Я искал некоторые на SE, но большинство вопросов довольно неопределенны.
Рассмотрим следующий вариант использования:
- редактор вводит статьи в CMS (около 500 слов).
- текст может содержать ссылки (в виде обычного текста) на объекты определенного домена. например:
- названия достопримечательностей, таких как бары, рестораны, районы и т. д.
- существует контролируемый словарь этих сущностей (около 5.000 сущностей).
- Я предполагаю, что сущность будет -кортежем в словаре
- после завершения текста пользователь сможет сохранить документ.
- Это запускает рабочий процесс для сканирования фрагмента текста по словарю путем сравнения с именем объекта. Необязательно иметь 100% совпадение: 97% на Jarao-winkler или что-то еще (я не знаком с тем, что использует NER алгоритма), может быть достаточно, мне нужно, чтобы это было настраиваемым.
- Хиты возвращаются на серверную сторону контроллера. Это, в свою очередь, возвращает клиенту JSON, содержащий объекты, которые представлены в виде предлагаемых перекрестных ссылок для редактора.
В идеале, я ищу проект, который использует NRE, чтобы предлагать перекрестные ссылки в среде CMS для совмещения. (Я уверен, что плагины для wordpress существуют, например), не уверен, существует ли что-то подобное в Java.
Все другие более общие указатели на NRE-библиотеки, которые работают с управляемыми пользовательскими словарями, также приветствуются.
задан Geert-Jan 5 October 2011 в 15:02
поделиться