Получите ссылки от Щема

Question

Я использую nut nut 1.3, чтобы ползать сайт. Я хочу получить список URL-адресов пополз, и URL-адреса, исходящие со страницы.

Я получаю список URL-адресов, выполненных с помощью команды ReadDB.

bin/nutch readdb crawl/crawldb -dump file

Есть ли способ узнать URL-адреса, которые находятся на странице, чтение CRAWLDB или LinkDB?

в org.apache.nutch.parse.html.htmlparser Я вижу массив Outlinks, я Интересно, есть ли быстрый способ получить доступ к командной строке.

10

web-crawler nutch

задан surajz 15 September 2011 в 02:13

0 ответов

Другие вопросы по тегам:

web-crawler nutch