Недавно я начал работать над нутчем и пытаюсь понять, как он работает. Насколько я знаю, Nutch в основном используется для сканирования веб-страниц, а solr/Lucene — для индексации и поиска. Но когда я читаю документацию по nutch, там написано, что nutch тоже делает инвертированное индексирование. Использует ли он Lucene для внутреннего индексирования или у него есть какая-то другая библиотека для индексирования? Если он использует solr/lucene для индексации, то почему необходимо настраивать solr с nutch, как сказано в руководстве по nutch?
Выполняется ли индексация по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь происходит индексация?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Или индексация происходит только в этом случае. (Согласно руководству: если у вас уже настроено ядро Solr и вы хотите проиндексировать его, вам необходимо добавить параметр -solr к вашей команде обхода, например)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5