nutch vs solr indexing

Недавно я начал работать над нутчем и пытаюсь понять, как он работает. Насколько я знаю, Nutch в основном используется для сканирования веб-страниц, а solr/Lucene — для индексации и поиска. Но когда я читаю документацию по nutch, там написано, что nutch тоже делает инвертированное индексирование. Использует ли он Lucene для внутреннего индексирования или у него есть какая-то другая библиотека для индексирования? Если он использует solr/lucene для индексации, то почему необходимо настраивать solr с nutch, как сказано в руководстве по nutch?

Выполняется ли индексация по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь происходит индексация?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Или индексация происходит только в этом случае. (Согласно руководству: если у вас уже настроено ядро ​​Solr и вы хотите проиндексировать его, вам необходимо добавить параметр -solr к вашей команде обхода, например)

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
10
задан CRS 1 June 2012 в 05:18
поделиться