Я создал большую базу данных банков в MongoDB. Я могу легко взять эту информацию и создать с ней индексы. Например, я хотел бы иметь возможность сопоставить названия банков "Eagle Bank & ...
Есть ли способ программно извлечь выделенный текст и примечания из файла PDF? Приветствуется любой язык. Я нашел несколько библиотек с Python, Java, а также PHP, но ни одна из них не выполняет ...
Я давно размышляю об этом, и я не понимаю, почему Google еще не пробовал это - или, может быть, они пробовали, а я просто не знаю об этом. Есть ли поисковик, в котором можно ввести вопрос ...
Насколько я понимаю, IDF используется для подсчета количества документов, в которых есть термин (вроде просто идеи). Вы можете вычислить IDF (вместе с TF)в обучающем наборе, так как у вас есть все документы...
У меня есть сомнения в вычислении IDF (Обратной частоты документа )при категоризации документов. У меня более одной категории с несколькими документами для обучения. Я вычисляю IDF для каждого члена в...
Я хотел бы знать, как выполнить фасетный поиск с помощью lucene.facet. Я объясню, что именно я хочу сделать: у меня есть таксономия html-файлов (похожая на ODP), и я хочу, чтобы по заданному запросу отображалось...
Мне интересно, есть ли для этого техника НЛП/МО. Предположим, мне дан набор предложений, и я посмотрел фильм. Слышал, фильм отличный, надо посмотреть. Получил билеты на фильм. Я нахожусь в...
Я написал систему, обобщающую длинный документ, содержащий тысячи слов. Существуют ли какие-либо нормы того, как следует оценивать такую систему в контексте опроса пользователей? Короче говоря, есть ли...
Мне нужно сегментировать слова из текста. Иногда слова с дефисом пишутся без дефисов, а слова с апострофом пишутся без апострофа. Есть также похожие проблемы, например, разные ...
Предположим, что оценка NDCG для моей поисковой системы составляет 0,8. Как мне интерпретировать эту оценку. Как мне сказать читателю, что эта оценка значительна?
EDIT:
Поскольку все запутались, я хочу упростить свой вопрос. У меня есть два упорядоченных списка. Теперь я просто хочу вычислить, насколько один список похож на другой. Например, 1,7,4,5,8,9
1,7,5,4,9,6 Что ...
Я использую Version.Lucene_29. Используя обычный метод строкового запроса, я мог сделать следующее: Directory directory = new FSDirectory (...);
// Запускаем получение Lucene.
IndexSearcher iSearch = new ...
Я пытаюсь написать функцию на Python (все еще новичок!), Которая возвращает индексы и количество документов, упорядоченных внутренними продуктами их оценок tfidf. Процедура: Вычислить вектор внутреннего ...
Есть ли кто-нибудь, кто использовал TREC_EVAL? Мне нужен "Trec_EVAL для чайников". Я пытаюсь оценить несколько поисковых систем, чтобы сравнить такие параметры, как точность отзыва, качество ранжирования и т.д. для моего ...
Я пытаюсь реализовать довольно тривиальную "взять результаты поиска (как в заголовке и кратком описании), сгруппировать их в значимые именованные группы »на PHP. После нескольких часов поиска в Google и ...
Я ищу библиотеку Java, которая может выполнять распознавание именованных объектов (NER) с настраиваемым контролируемым словарем, без сначала нужны помеченные данные для обучения. Я искал кое-что на SE, но большинство вопросов ...
Я индексирую набор веб-сайтов с очень большим количеством страниц (десятки миллионов), созданных из небольшого количество шаблонов. Я ищу алгоритм для изучения шаблонов ...
Я скоро начну новый проект, в котором я собираюсь сделать много задач обработки текста, таких как поиск, категоризация / классификация, кластеризация и т. д. Будет огромное количество ...
Я ищу систему поиска документов (например, Xapian, Whoosh, Lucene, Solr, Sphinx или другие) ), который может искать частичные термины. Например, при поиске по запросу "brit" поиск ...
Я ищу подходящий алгоритм для моей цели, может ли кто-нибудь предложить хороший алгоритм обучения для следующего сценария: пользователь может искать какое-то слово в наборе предложений. Я ...
Я использовал LingPipe, Stanford's NER, RiTa и различные библиотеки подобия предложений для своих предыдущих проектов Java, которые были сосредоточены на (предварительной) обработке текста (индексация, теги xml, определение тем и т. д.) ...
I Я пытаюсь запрограммировать простой поиск в Google через C #, который запускал бы запрос по моему выбору и извлекал бы первые 50 ссылок. После тщательного поиска подобного инструмента \ правильного API я понял, что ...
Предоставляет ли Lucene средства для увеличения количества свежих документов ? Например, предположим, что документ Lucene включает поле даты. Возможно ли без того, чтобы пользователь каким-либо образом изменил свой запрос ...