10
ответов

Как мы создаем простое использование поисковой системы Lucene, Solr или Nutch?

Наша компания имеет тысячи документов в формате PDF. Как мы создаем простое использование поисковой системы Lucene, Solr или Nutch? Мы обеспечим, основная веб-страница Java/JSP были люди, может ввести в словах и работать...
вопрос задан: 22 October 2008 07:39
4
ответа

Кто-либо открывается, просто растяжимый поисковый робот существует?

Я ищу решение для поискового робота, какая банка является достаточно сформировавшейся и может быть просто расширена. Я интересуюсь следующими функциями... или возможностью расширить поисковый робот для встречи их: частично просто...
вопрос задан: 26 November 2012 13:08
3
ответа

Как агрегатор создается? [закрытый]

Скажем, я хочу агрегироваться, информация, связанная с определенной нишей из многих источников (могло быть перемещение, технология, или безотносительно). Как я сделал бы это? Имейте паука/поисковый робот, который проверит сеть...
вопрос задан: 23 August 2010 09:36
2
ответа

Используя поисковый робот Nutch с Solr

Могут я для интеграции Apache поисковый робот Nutch с Индексным сервером Solr?Править: Один из наших devs предложил решение из этих сообщений, Выполняющих Nutch и Обновление Solr для Running Nutch и Solr...
вопрос задан: 11 September 2009 15:24
1
ответ

Nutch по сравнению с Solr

В настоящее время собирая информацию, где я должен использовать Nutch с Solr (домен - вертикальный веб-поиск). Вы могли предложить меня?
вопрос задан: 30 November 2016 13:32
1
ответ

обработка псевдонимов доменов в Apache Nutch 2.3.1 [дубликат]

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop / Hbase. В настоящее время для платформы индексирования Apache Solr 6.6.2 используется. Мы проползли около 3 миллионов документов с помощью Nutch и индекса ...
вопрос задан: 19 April 2016 15:11
1
ответ

Solrindex способ отображения схемы Нуча в Solr

У нас есть несколько пользовательских полей, которые сканер собирает и индексирует. Перенос этого в solr через solrindex (с использованием файла сопоставления) работает нормально. Журнал показывает, что все в порядке, однако ...
вопрос задан: 27 August 2010 09:13
1
ответ

Многопоточность Nutch

Я пытаюсь настроить nutch для выполнения многопоточной проверки. Однако я сталкиваюсь с проблемой. Я не в состоянии выполнить проверку с несколькими потоками, я изменил nutch-site.xml для использования 25...
вопрос задан: 13 June 2009 16:39
0
ответов

зачем указывать на неправильную коллекцию solr, даже если установлен параметр solr.server.url?

интегрировать Nutch 1.15 с solr8.0, но когда я использую следующую команду / ./data/csdn 1 для индексации просканировано ...
вопрос задан: 23 March 2019 06:51
0
ответов

Nutch: Вызов на Java, а не в командной строке?

Я слишком толстый или действительно нет способа вызвать Apache Nutch с помощью некоторого кода Java программно? Где можно найти документацию (или руководство или учебник) о том, как это сделать? Google подвел меня. ...
вопрос задан: 24 January 2018 15:07
0
ответов

Nutch Нет агентов, перечисленных в 'http.agent.name'

Исключение в потоке" main "java.lang.IllegalArgumentException: Сборщик: Агенты не указаны в Свойство http.agent.name. в org.apache.nutch.fetcher.Fetcher.checkConfiguration (Fetcher.java:1166) ...
вопрос задан: 20 December 2017 12:44
0
ответов

Лучший сканер веб-графиков для скорости?

В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал. Этот проект включает в себя раскрытие всего содержимого документа всех веб-страниц в одном доменном имени, которые ...
вопрос задан: 14 April 2014 18:52
0
ответов

Как сохранить исходный html-файл с помощью Apache Nutch

Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне...
вопрос задан: 8 April 2013 22:48
0
ответов

что происходит внутри Nutch 2?

Я очень хочу знать (и должен знать )о nutch и его алгоритмах (, потому что это связано с моим проектом ), который он использует для извлечения, классификации,... (обычно ползает ). Я читал этот материал, но его мало...
вопрос задан: 27 July 2012 22:22
0
ответов

Сканирование с использованием Nutch… Показывает IOException [закрыто]

Я начал использовать Nutch, и все было хорошо, пока не столкнулся с исключением IOException, $ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 cygpath: невозможно преобразовать пустой путь solrUrl не задан, ...
вопрос задан: 23 June 2012 21:20
0
ответов

nutch vs solr indexing

Недавно я начал работать над nutch и пытаюсь понять, как он работает. Насколько я знаю, Nutch в основном используется для сканирования веб-страниц, а solr/Lucene — для индексации и поиска. Но когда я...
вопрос задан: 1 June 2012 05:18
0
ответов

Nutch: чтение данных и добавление метаданных

Недавно я начал искать apache nutch. Я мог настроить и сканировать интересующие меня веб-страницы с помощью nutch. Я не совсем понимаю, как читать эти данные. Я в принципе хочу связать...
вопрос задан: 27 May 2012 06:09
0
ответов

Использование Nutch solrindex для индексации нескольких ядер?

Есть ли в команде bin/nutch solrindex параметр, указывающий, на какое ядро ​​Solr индексировать?
вопрос задан: 1 May 2012 07:37
0
ответов

Nutch- Cygwin Как установить JAVA_HOME

Я пытаюсь запустить Nutch с Cygwin. У меня проблемы с настройкой JAVA_HOME. $ export JAVA_HOME = '/ cygdrive / f / program files / java / jdk1.6.0_21' Когда я запускаю команду nutch $ bin / nutch crawl, я получаю ...
вопрос задан: 18 March 2012 21:07
0
ответов

Вы индексировали результаты сканирования Nutch раньше с помощью elasticsearch?

Кому-нибудь удавалось писать пользовательские индексаторы для Nutch, чтобы индексировать результаты сканирования с elasticsearch? Или вы знаете, что уже существует?
вопрос задан: 14 February 2012 13:14
0
ответов

Как получить html-контент из nutch

Есть ли способ получить html-контент каждой веб-страницы в nutch при сканировании веб-страницы?
вопрос задан: 25 January 2012 13:54
0
ответов

Как получить большой объем данных?

Я провожу небольшое тестирование с помощью nutch и hadoop, и мне нужен большой объем данных. Я хочу начать с 20 ГБ, перейти к 100 ГБ, 500 ГБ и в конечном итоге достичь 1-2 ТБ. Проблема в том, что у меня этого нет ...
вопрос задан: 31 December 2011 20:40
0
ответов

Какой Open Source Crawler лучше?

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika. Какой из них лучше? Каковы достоинства и недостатки каждого из них? Я хотел бы иметь расширяемый краулер, который может просматривать список ...
вопрос задан: 7 December 2011 13:28
0
ответов

Получите ссылки от Щема

Я использую ЩАТВА 1.3, чтобы ползать сайт. Я хочу получить список URL-адресов пополз, и URL-адреса, исходящие со страницы. Я получаю список URL-адресов, выполненных с помощью команды readdb. Bin / Readch Readdb Crawl / CRAWLDB -...
вопрос задан: 15 September 2011 02:13
0
ответов

Натч на ЭМИ проблемы чтения из S3

Привет я пытаюсь запустить Apache Nutch 1.2 на ЭМИ Amazon. Для этого я специфицирую входной каталог из S3. Получаю следующую ошибку: Fetcher: java.lang.IllegalArgumentException: Этот файл ...
вопрос задан: 30 August 2011 17:42
0
ответов

Советы Nutch API

Я работаю над проектом, в котором мне нужен зрелый поисковый робот. некоторая работа, и я оцениваю Nutch для этой цели. Мои текущие потребности относительно просты: мне нужен краулер, способный ...
вопрос задан: 2 December 2010 21:37
0
ответов

An alternative web crawler to Nutch [closed]

I'm trying to build a specialised search engine web site that indexes a limited number of web sites. The solution I came up with is: using Nutch as the web crawler, используя Solr в качестве поисковой системы, ...
вопрос задан: 24 November 2010 17:24
0
ответов

nutch и sitemap.xml

поддерживает ли apache-nutch карты сайта? или как самому реализовать? как я могу использовать поле приоритета, следует ли его умножать для увеличения поля?
вопрос задан: 22 October 2010 14:44
0
ответов

сегментов * файл не найден

Мне нужно получить доступ к индексу lucene (созданному путем сканирования нескольких веб-страниц с помощью Nutch), но он дает показанная выше ошибка: java.io.FileNotFoundException: в org.apache не найден файл сегментов * ....
вопрос задан: 27 September 2010 08:06