Я использую nut nut 1.3, чтобы ползать сайт. Я хочу получить список URL-адресов пополз, и URL-адреса, исходящие со страницы.
Я получаю список URL-адресов, выполненных с помощью команды ReadDB.
bin/nutch readdb crawl/crawldb -dump file
Есть ли способ узнать URL-адреса, которые находятся на странице, чтение CRAWLDB или LinkDB?
в org.apache.nutch.parse.html.htmlparser
Я вижу массив Outlinks, я Интересно, есть ли быстрый способ получить доступ к командной строке.