Извлечение/опознание сущностей с помощью бесплатных инструментов при питании Lucene Index

В настоящее время я исследую возможности извлечения имен, местоположений, технических слов и категорий из текста (много статей из Интернета), который затем будет включен в индекс Lucene/ElasticSearch. Дополнительная информация затем добавляется в виде метаданных и должна повысить точность поиска.

Например, когда кто-то запрашивает "калитку", он должен быть в состоянии решить, что он имеет в виду - крикет или проект Apache. До сих пор я пытался реализовать это самостоятельно с небольшим успехом. Сейчас я нашёл много инструментов, но я не уверен, подходят ли они для этой задачи, и какой из них хорошо интегрируется с Lucene, или точность извлечения сущностей достаточно высока.

My questions:

  • Есть ли у кого-нибудь опыт работы с некоторыми из вышеперечисленных инструментов и их точностью/восстановлением? Или есть ли необходимые данные для обучения + доступные.
  • Есть ли статьи или учебные пособия, с которых я могу начать с извлечения сущностей (NER) для каждого инструмента?
  • Как их можно интегрировать с Lucene?

Вот несколько вопросов, связанных с этой темой:

44
задан Community 23 May 2017 в 12:00
поделиться