nutch - список вопросов по программированию nutch

10

ответов

Как мы создаем простое использование поисковой системы Lucene, Solr или Nutch?

Наша компания имеет тысячи документов в формате PDF. Как мы создаем простое использование поисковой системы Lucene, Solr или Nutch? Мы обеспечим, основная веб-страница Java/JSP были люди, может ввести в словах и работать...

nutch solr lucene

вопрос задан: 22 October 2008 07:39

4

ответа

Кто-либо открывается, просто растяжимый поисковый робот существует?

Я ищу решение для поискового робота, какая банка является достаточно сформировавшейся и может быть просто расширена. Я интересуюсь следующими функциями... или возможностью расширить поисковый робот для встречи их: частично просто...

web-scraping web-crawler nutch

вопрос задан: 26 November 2012 13:08

3

ответа

Как агрегатор создается? [закрытый]

Скажем, я хочу агрегироваться, информация, связанная с определенной нишей из многих источников (могло быть перемещение, технология, или безотносительно). Как я сделал бы это? Имейте паука/поисковый робот, который проверит сеть...

web-services aggregation web-crawler nutch

вопрос задан: 23 August 2010 09:36

2

ответа

Используя поисковый робот Nutch с Solr

Могут я для интеграции Apache поисковый робот Nutch с Индексным сервером Solr?Править: Один из наших devs предложил решение из этих сообщений, Выполняющих Nutch и Обновление Solr для Running Nutch и Solr...

nutch solr lucene

вопрос задан: 11 September 2009 15:24

1

ответ

Nutch по сравнению с Solr

В настоящее время собирая информацию, где я должен использовать Nutch с Solr (домен - вертикальный веб-поиск). Вы могли предложить меня?

solr nutch

вопрос задан: 30 November 2016 13:32

1

ответ

обработка псевдонимов доменов в Apache Nutch 2.3.1 [дубликат]

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop / Hbase. В настоящее время для платформы индексирования Apache Solr 6.6.2 используется. Мы проползли около 3 миллионов документов с помощью Nutch и индекса ...

solr lucene duplicates nutch

вопрос задан: 19 April 2016 15:11

1

ответ

Solrindex способ отображения схемы Нуча в Solr

У нас есть несколько пользовательских полей, которые сканер собирает и индексирует. Перенос этого в solr через solrindex (с использованием файла сопоставления) работает нормально. Журнал показывает, что все в порядке, однако ...

nutch solr

вопрос задан: 27 August 2010 09:13

1

ответ

Многопоточность Nutch

Я пытаюсь настроить nutch для выполнения многопоточной проверки. Однако я сталкиваюсь с проблемой. Я не в состоянии выполнить проверку с несколькими потоками, я изменил nutch-site.xml для использования 25...

nutch

вопрос задан: 13 June 2009 16:39

0

ответов

зачем указывать на неправильную коллекцию solr, даже если установлен параметр solr.server.url?

интегрировать Nutch 1.15 с solr8.0, но когда я использую следующую команду / ./data/csdn 1 для индексации просканировано ...

solr nutch

вопрос задан: 23 March 2019 06:51

0

ответов

Nutch: Вызов на Java, а не в командной строке?

Я слишком толстый или действительно нет способа вызвать Apache Nutch с помощью некоторого кода Java программно? Где можно найти документацию (или руководство или учебник) о том, как это сделать? Google подвел меня. ...

java web-crawler nutch

вопрос задан: 24 January 2018 15:07

0

ответов

Nutch Нет агентов, перечисленных в 'http.agent.name'

Исключение в потоке" main "java.lang.IllegalArgumentException: Сборщик: Агенты не указаны в Свойство http.agent.name. в org.apache.nutch.fetcher.Fetcher.checkConfiguration (Fetcher.java:1166) ...

web-crawler nutch

вопрос задан: 20 December 2017 12:44

0

ответов

Лучший сканер веб-графиков для скорости?

В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал. Этот проект включает в себя раскрытие всего содержимого документа всех веб-страниц в одном доменном имени, которые ...

scrapy web-crawler nutch

вопрос задан: 14 April 2014 18:52

0

ответов

Как сохранить исходный html-файл с помощью Apache Nutch

Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне...

nutch search-engine web-crawler

вопрос задан: 8 April 2013 22:48

0

ответов

что происходит внутри Nutch 2?

Я очень хочу знать (и должен знать )о nutch и его алгоритмах (, потому что это связано с моим проектом ), который он использует для извлечения, классификации,... (обычно ползает ). Я читал этот материал, но его мало...

algorithm analysis infrastructure nutch

вопрос задан: 27 July 2012 22:22

0

ответов

Сканирование с использованием Nutch… Показывает IOException [закрыто]

Я начал использовать Nutch, и все было хорошо, пока не столкнулся с исключением IOException, $ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 cygpath: невозможно преобразовать пустой путь solrUrl не задан, ...

ioexception java nutch open-source web-crawler

вопрос задан: 23 June 2012 21:20

0

ответов

nutch vs solr indexing

Недавно я начал работать над nutch и пытаюсь понять, как он работает. Насколько я знаю, Nutch в основном используется для сканирования веб-страниц, а solr/Lucene — для индексации и поиска. Но когда я...

nutch solr lucene

вопрос задан: 1 June 2012 05:18

0

ответов

Nutch: чтение данных и добавление метаданных

Недавно я начал искать apache nutch. Я мог настроить и сканировать интересующие меня веб-страницы с помощью nutch. Я не совсем понимаю, как читать эти данные. Я в принципе хочу связать...

nutch semantic-web solr web-crawler lucene

вопрос задан: 27 May 2012 06:09

0

ответов

Использование Nutch solrindex для индексации нескольких ядер?

Есть ли в команде bin/nutch solrindex параметр, указывающий, на какое ядро Solr индексировать?

nutch solr

вопрос задан: 1 May 2012 07:37

0

ответов

Nutch- Cygwin Как установить JAVA_HOME

Я пытаюсь запустить Nutch с Cygwin. У меня проблемы с настройкой JAVA_HOME. $ export JAVA_HOME = '/ cygdrive / f / program files / java / jdk1.6.0_21' Когда я запускаю команду nutch $ bin / nutch crawl, я получаю ...

cygwin nutch

вопрос задан: 18 March 2012 21:07

0

ответов

Вы индексировали результаты сканирования Nutch раньше с помощью elasticsearch?

Кому-нибудь удавалось писать пользовательские индексаторы для Nutch, чтобы индексировать результаты сканирования с elasticsearch? Или вы знаете, что уже существует?

lucene full-text-search web-crawler nutch elasticsearch

вопрос задан: 14 February 2012 13:14

0

ответов

Как получить html-контент из nutch

Есть ли способ получить html-контент каждой веб-страницы в nutch при сканировании веб-страницы?

nutch

вопрос задан: 25 January 2012 13:54

0

ответов

Как получить большой объем данных?

Я провожу небольшое тестирование с помощью nutch и hadoop, и мне нужен большой объем данных. Я хочу начать с 20 ГБ, перейти к 100 ГБ, 500 ГБ и в конечном итоге достичь 1-2 ТБ. Проблема в том, что у меня этого нет ...

java hadoop nutch bigdata

вопрос задан: 31 December 2011 20:40

0

ответов

Какой Open Source Crawler лучше?

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika. Какой из них лучше? Каковы достоинства и недостатки каждого из них? Я хотел бы иметь расширяемый краулер, который может просматривать список ...

web-crawler nutch

вопрос задан: 7 December 2011 13:28

0

ответов

Получите ссылки от Щема

Я использую ЩАТВА 1.3, чтобы ползать сайт. Я хочу получить список URL-адресов пополз, и URL-адреса, исходящие со страницы. Я получаю список URL-адресов, выполненных с помощью команды readdb. Bin / Readch Readdb Crawl / CRAWLDB -...

web-crawler nutch

вопрос задан: 15 September 2011 02:13

0

ответов

Натч на ЭМИ проблемы чтения из S3

Привет я пытаюсь запустить Apache Nutch 1.2 на ЭМИ Amazon. Для этого я специфицирую входной каталог из S3. Получаю следующую ошибку: Fetcher: java.lang.IllegalArgumentException: Этот файл ...

java hadoop amazon-web-services nutch

вопрос задан: 30 August 2011 17:42

0

ответов

Советы Nutch API

Я работаю над проектом, в котором мне нужен зрелый поисковый робот. некоторая работа, и я оцениваю Nutch для этой цели. Мои текущие потребности относительно просты: мне нужен краулер, способный ...

java web-crawler nutch

вопрос задан: 2 December 2010 21:37

0

ответов

An alternative web crawler to Nutch [closed]

I'm trying to build a specialised search engine web site that indexes a limited number of web sites. The solution I came up with is: using Nutch as the web crawler, используя Solr в качестве поисковой системы, ...

search-engine web-crawler nutch

вопрос задан: 24 November 2010 17:24

0

ответов

nutch и sitemap.xml

поддерживает ли apache-nutch карты сайта? или как самому реализовать? как я могу использовать поле приоритета, следует ли его умножать для увеличения поля?

search solr search-engine nutch

вопрос задан: 22 October 2010 14:44

0

ответов

сегментов * файл не найден

Мне нужно получить доступ к индексу lucene (созданному путем сканирования нескольких веб-страниц с помощью Nutch), но он дает показанная выше ошибка: java.io.FileNotFoundException: в org.apache не найден файл сегментов * ....

java lucene nutch

вопрос задан: 27 September 2010 08:06