0
ответов

Поиск нечеткой строки с помощью Whoosh в Python

Я создал большую базу данных банков в MongoDB. Я могу легко взять эту информацию и создать с ней индексы. Например, я хотел бы иметь возможность сопоставить названия банков "Eagle Bank & ...
вопрос задан: 5 November 2015 21:15
0
ответов

Как извлечь примечания и выделенные части из файлов PDF

Есть ли способ программно извлечь выделенный текст и примечания из файла PDF? Приветствуется любой язык. Я нашел несколько библиотек с Python, Java, а также PHP, но ни одна из них не выполняет ...
вопрос задан: 18 June 2014 15:31
0
ответов

Есть ли поисковая система, которая даст прямой ответ? [закрыто]

Я давно размышляю об этом, и я не понимаю, почему Google еще не пробовал это - или, может быть, они пробовали, а я просто не знаю об этом. Есть ли поисковик, в котором можно ввести вопрос ...
вопрос задан: 23 December 2013 21:06
0
ответов

Расчет IDF (как в TF-IDF)при тестировании?

Насколько я понимаю, IDF используется для подсчета количества документов, в которых есть термин (вроде просто идеи). Вы можете вычислить IDF (вместе с TF)в обучающем наборе, так как у вас есть все документы...
вопрос задан: 18 October 2012 08:22
0
ответов

Вычисление IDF (Обратная частота документа )для категоризации документа

У меня есть сомнения в вычислении IDF (Обратной частоты документа )при категоризации документов. У меня более одной категории с несколькими документами для обучения. Я вычисляю IDF для каждого члена в...
вопрос задан: 29 August 2012 07:27
0
ответов

Получить высоту и ширину изображения, хранящегося в Amazon S3

Я планирую хранить изображения на Amazon S3 как извлечь из Amazon S3 : 1)размер файла 2)высота изображения 3)ширина изображения ?
вопрос задан: 29 May 2012 18:22
0
ответов

Как выполнить фасетный поиск?

Я хотел бы знать, как выполнить фасетный поиск с помощью lucene.facet. Я объясню, что именно я хочу сделать: у меня есть таксономия html-файлов (похожая на ODP), и я хочу, чтобы по заданному запросу отображалось...
вопрос задан: 21 May 2012 16:45
0
ответов

Как определить, произошло ли событие/действие из текста?

Мне интересно, есть ли для этого техника НЛП/МО. Предположим, мне дан набор предложений, и я посмотрел фильм. Слышал, фильм отличный, надо посмотреть. Получил билеты на фильм. Я нахожусь в...
вопрос задан: 21 April 2012 16:13
0
ответов

Как оценить инструмент реферирования текста?

Я написал систему, обобщающую длинный документ, содержащий тысячи слов. Существуют ли какие-либо нормы того, как следует оценивать такую ​​систему в контексте опроса пользователей? Короче говоря, есть ли...
вопрос задан: 26 March 2012 20:26
0
ответов

Сегментация слов и группировка с дефисом и апострофом слова из текста

Мне нужно сегментировать слова из текста. Иногда слова с дефисом пишутся без дефисов, а слова с апострофом пишутся без апострофа. Есть также похожие проблемы, например, разные ...
вопрос задан: 13 March 2012 20:19
0
ответов

как показать, что оценка NDCG значима

Предположим, что оценка NDCG для моей поисковой системы составляет 0,8. Как мне интерпретировать эту оценку. Как мне сказать читателю, что эта оценка значительна?
вопрос задан: 27 February 2012 16:06
0
ответов

Вычисление сходства между двумя списками

EDIT: Поскольку все запутались, я хочу упростить свой вопрос. У меня есть два упорядоченных списка. Теперь я просто хочу вычислить, насколько один список похож на другой. Например, 1,7,4,5,8,9 1,7,5,4,9,6 Что ...
вопрос задан: 20 February 2012 17:37
0
ответов

Как использовать MultiFieldQueryParser из Lucene?

Я использую Version.Lucene_29. Используя обычный метод строкового запроса, я мог сделать следующее: Directory directory = new FSDirectory (...); // Запускаем получение Lucene. IndexSearcher iSearch = new ...
вопрос задан: 13 January 2012 00:47
0
ответов

Обратная сортировка и сортировка аргументов в python

Я пытаюсь написать функцию на Python (все еще новичок!), Которая возвращает индексы и количество документов, упорядоченных внутренними продуктами их оценок tfidf. Процедура: Вычислить вектор внутреннего ...
вопрос задан: 9 December 2011 12:28
0
ответов

Как оценить систему поиска / поиска с помощью trec_eval?

Есть ли кто-нибудь, кто использовал TREC_EVAL? Мне нужен "Trec_EVAL для чайников". Я пытаюсь оценить несколько поисковых систем, чтобы сравнить такие параметры, как точность отзыва, качество ранжирования и т.д. для моего ...
вопрос задан: 18 November 2011 02:48
0
ответов

Библиотека PHP для кластеризации слов / NLP?

Я пытаюсь реализовать довольно тривиальную "взять результаты поиска (как в заголовке и кратком описании), сгруппировать их в значимые именованные группы »на PHP. После нескольких часов поиска в Google и ...
вопрос задан: 2 November 2011 11:45
0
ответов

неконтролируемое распознавание именованных объектов (NER) с настраиваемым словарем для предложений перекрестных ссылок в Java

Я ищу библиотеку Java, которая может выполнять распознавание именованных объектов (NER) с настраиваемым контролируемым словарем, без сначала нужны помеченные данные для обучения. Я искал кое-что на SE, но большинство вопросов ...
вопрос задан: 5 October 2011 15:02
0
ответов

Существуют ли какие-либо API, которые позволят мне искать по изображению?

У меня есть изображение, и я хочу выполнить поиск, чтобы увидеть, что это такое. Есть ли для этого API?
вопрос задан: 20 August 2011 01:25
0
ответов

Вывод шаблонов из набора строк

Я индексирую набор веб-сайтов с очень большим количеством страниц (десятки миллионов), созданных из небольшого количество шаблонов. Я ищу алгоритм для изучения шаблонов ...
вопрос задан: 9 June 2011 19:18
0
ответов

Python или Java для обработки текста (интеллектуальный анализ текста, поиск информации, обработка естественного языка) [закрыто]

Я скоро начну новый проект, в котором я собираюсь сделать много задач обработки текста, таких как поиск, категоризация / классификация, кластеризация и т. д. Будет огромное количество ...
вопрос задан: 18 May 2011 07:25
0
ответов

Поиск документов по частичным словам

Я ищу систему поиска документов (например, Xapian, Whoosh, Lucene, Solr, Sphinx или другие) ), который может искать частичные термины. Например, при поиске по запросу "brit" поиск ...
вопрос задан: 26 April 2011 19:02
0
ответов

Алгоритм машинного обучения

Я ищу подходящий алгоритм для моей цели, может ли кто-нибудь предложить хороший алгоритм обучения для следующего сценария: пользователь может искать какое-то слово в наборе предложений. Я ...
вопрос задан: 9 April 2011 05:24
0
ответов

Python NLTK против связанных библиотек Java? [закрыто]

Я использовал LingPipe, Stanford's NER, RiTa и различные библиотеки подобия предложений для своих предыдущих проектов Java, которые были сосредоточены на (предварительной) обработке текста (индексация, теги xml, определение тем и т. д.) ...
вопрос задан: 8 April 2011 01:52
0
ответов

получить ссылки из поиска Google на C #

I Я пытаюсь запрограммировать простой поиск в Google через C #, который запускал бы запрос по моему выбору и извлекал бы первые 50 ссылок. После тщательного поиска подобного инструмента \ правильного API я понял, что ...
вопрос задан: 3 March 2011 11:10
0
ответов

Увеличение количества свежих документов с помощью Lucene

Предоставляет ли Lucene средства для увеличения количества свежих документов ? Например, предположим, что документ Lucene включает поле даты. Возможно ли без того, чтобы пользователь каким-либо образом изменил свой запрос ...
вопрос задан: 18 January 2011 13:13