Вопросы Теги

Как мы создаем простое использование поисковой системы Lucene, Solr или Nutch?

измените эту строку

image.setImageResource(R.drawable.xxx)

на эту:

bitcoin.setImageResource(R.drawable.xxx)

8

nutch solr lucene

задан Andy Lester 22 October 2008 в 07:39

поделиться

10 ответов

Ни один из проектов в семействе Lucene не может исходно обработать PDFs, но существуют утилиты, которым можно заглядывать и правильно написанные примеры к как к самокрутке.

Lucene сделает в значительной степени независимо от того, что Вам нужен он, чтобы сделать, но существуют издержки с точки зрения Вашего времени, как Tony сказал выше. Тысячи документов действительно не то, что многие, таким образом, Вы смогли сходить с рук более легкую альтернативу веса.

Тем не менее я все еще рекомендовал бы смотреть на Solr - очень, намного легче настроить, чем Lucene, имеет поддержку резервных копий, репликации, и т.д., а также изящного интерфейса JSON, который соответствовал бы Вашему варианту использования очень хорошо: http://wiki.apache.org/solr/SolJSON

3

ответ дан 5 December 2019 в 07:13

поделиться

Мне везло с lucene, но это не щелчок, установка и поиск, действительно требуется немного работы.
При необходимости в чем-то, что эй может загрузить и установить и ищет в течение 10 минут, смотрит на свободный Выпуск Yahoo Ominifind http://omnifind.ibm.yahoo.net/, он использует Lucene, но упаковывается таким образом, что он настроен и готов работать после установки, намного более легкий способ попробовать Lucene.

8

ответ дан 5 December 2019 в 07:13

поделиться

Устройство поиска Google http://www.google.com/enterprise/gsa/

3

ответ дан 5 December 2019 в 07:13

поделиться

Я думаю, что Вы хотите, чтобы система управляла Вашим файлом PDF. Попытайтесь использовать dspace систему. Dspace является цифровой библиотекой, он поддерживает Lucene на основе. www.dspace.org.

3

ответ дан 5 December 2019 в 07:13

поделиться

Смотрите на eprints. Это включает рабочий процесс для добавления новых документов, автоматически индексирует и миниатюры PDF и имеет довольно всестороннюю функциональность полнотекстового поиска. Это может также быть легко настроено и выпущено под брендом.

Почему изобретают велосипед. Снова.

2

ответ дан 5 December 2019 в 07:13

поделиться

Ответ на такой широкий вопрос на этом форуме будет жесток. Я рекомендовал бы проверить книгу Lucene в Действии, которое покрывает основы индексации и поиска довольно читаемым способом.

Учитывая Ваше приложение, это походит на Nutch, и Solr, вероятно, не будет необходим. Так как все Ваши документы доступны локально, Nutch, вероятно, не будет полезен. Solr может помочь Вам управлять кластером искателей, если у Вас есть высокая загрузка запросов, но Lucene очень производителен, и обрабатывает большие наборы документа очень масштабируемым способом.

Одной областью, которая могла бы использовать большое Ваше усилие, является использование PDF. Возможно индексировать документы в формате PDF, и существуют вклады Lucene для упрощения извлечения необработанного текста от PDFs, но в зависимости от документа, может варьироваться качество результатов. Часто, контекст ключевого слова в документе в формате PDF неясен из-за форматирования инструкций, и это может мешать делать поиски с расстоянием или показывать контекст хита.

1

ответ дан 5 December 2019 в 07:13

поделиться

Если у Вас есть сервер Linux, Вы могли бы использовать Гончую, чтобы индексировать их и затем просто использовать функциональность поиска, которая идет с нею. Это имеет (экспериментальный) интерфейс веб-поиска, и это может быть сцеплено в поле поиска FireFox также.

Это автоматически индексирует файлы, поскольку они включены, и я подозревал бы, что Вы найдете намного более эффективным улучшить или зафиксировать гончую, чем записать Ваш собственный поисковый интерфейс в Lucene.

0

ответ дан 5 December 2019 в 07:13

поделиться

Имея (по моему скромному мнению), явное преимущество того, чтобы быть на Mac, я использую SearchLight на несколько более старом G5. хороший веб-интерфейс для лучения, встроенный сервис индексации Mac OS.

-4

ответ дан 5 December 2019 в 07:13

поделиться

Плагин Nutch + Lucene + Pdf, включенный в Nutch, - ваше решение. Nutch позволяет анализировать PDF-файлы, включив плагин PDF.

Lucene позволит вам индексировать просканированные и проанализированные данные, а Nutch имеет сервлет, который дает вам интерфейс поиска.

Мы используем то же самое для наших внутренних ланов.

6

ответ дан 5 December 2019 в 07:13

поделиться

Отличная бесплатная технология поиска, на которую вы могли бы обратить внимание, - это IBM Yahoo! бесплатный поиск. Я не уверен, реализовали ли они планы использования Lucene «под прикрытием», но он остается одним из действительно великих восточноевропейских технологий использования бесплатных поисковых технологий. Я считаю, что он обрабатывает до 500K документов, а также поддерживает PDF и другие нетекстовые форматы. Графический пользовательский интерфейс; легко настраивать результаты поиска и базовую аналитику поиска. Базовый тезаурус и мощный API, чтобы вы могли делать практически все, что захотите, если стандартные результаты вам не нравятся. Мы предложили это ряду клиентов, у которых было менее полумиллиона документов, и им это понравилось.

1

ответ дан 5 December 2019 в 07:13

поделиться

Другие вопросы по тегам:

nutch solr lucene

Похожие вопросы: