Советы Nutch API

Я работаю над проектом, где мне нужен зрелый краулер для выполнения некоторой работы, и я оцениваю Nutch для этой цели. Мои текущие потребности относительно просты: мне нужен искатель, который может сохранять данные на диск, и мне нужно, чтобы он мог повторно сканировать только обновленные ресурсы сайта и пропускать части, которые уже просканированы. Есть ли у кого-нибудь опыт работы с кодом Nutch непосредственно на Java, а не через командную строку. Хочу начать с простого: создать краулер (или аналогичный), минимально настроить его и запустить, ничего особенного. Есть ли какой-нибудь пример для этого или какой-то ресурс, на который мне следует посмотреть? Я просматриваю документацию Nutch, но большая часть ее касается командной строки, поиска и прочего. Насколько можно использовать модуль сканирования Nutch без необходимости индексирования и поиска? Любая помощь приветствуется. Спасибо.

6
задан Eugen 2 December 2010 в 21:37
поделиться