В настоящее время я исследую возможности извлечения имен, местоположений, технических слов и категорий из текста (много статей из Интернета), который затем будет включен в индекс Lucene/ElasticSearch. Дополнительная информация затем добавляется в виде метаданных и должна повысить точность поиска.
Например, когда кто-то запрашивает "калитку", он должен быть в состоянии решить, что он имеет в виду - крикет или проект Apache. До сих пор я пытался реализовать это самостоятельно с небольшим успехом. Сейчас я нашёл много инструментов, но я не уверен, подходят ли они для этой задачи, и какой из них хорошо интегрируется с Lucene, или точность извлечения сущностей достаточно высока.
My questions:
Вот несколько вопросов, связанных с этой темой: