Извлечение/опознание сущностей с помощью бесплатных инструментов при питании Lucene Index

Question

Извлечение/опознание сущностей с помощью бесплатных инструментов при питании Lucene Index

В настоящее время я исследую возможности извлечения имен, местоположений, технических слов и категорий из текста (много статей из Интернета), который затем будет включен в индекс Lucene/ElasticSearch. Дополнительная информация затем добавляется в виде метаданных и должна повысить точность поиска.

Например, когда кто-то запрашивает "калитку", он должен быть в состоянии решить, что он имеет в виду - крикет или проект Apache. До сих пор я пытался реализовать это самостоятельно с небольшим успехом. Сейчас я нашёл много инструментов, но я не уверен, подходят ли они для этой задачи, и какой из них хорошо интегрируется с Lucene, или точность извлечения сущностей достаточно высока.

Dbpedia Spotlight, demo выглядит очень многообещающе
OpenNLP требует обучения . Какие данные по обучению использовать?
OpenNLP tools
Stanbol
NLTK
balie
UIMA
GATE -> пример кода
Apache Mahout
Stanford CRF-NER
maui-indexer
Mallet
Illinois Named Entity Tagger Not open source but free
wikipedianer data

My questions:

Есть ли у кого-нибудь опыт работы с некоторыми из вышеперечисленных инструментов и их точностью/восстановлением? Или есть ли необходимые данные для обучения + доступные.
Есть ли статьи или учебные пособия, с которых я могу начать с извлечения сущностей (NER) для каждого инструмента?
Как их можно интегрировать с Lucene?

Вот несколько вопросов, связанных с этой темой:

44

lucene nlp semantic-web mahout opennlp

задан Community 23 May 2017 в 12:00

0 ответов

Другие вопросы по тегам:

lucene nlp semantic-web mahout opennlp

Извлечение/опознание сущностей с помощью бесплатных инструментов при питании Lucene Index

0 ответов

Похожие вопросы: