Как сохранить исходный html-файл с помощью Apache Nutch

Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне получить исходные html-файлы с помощью Nutch?

Поддерживает ли Натч это? Если нет, то какие другие инструменты я могу использовать для достижения своей цели. (Инструменты, поддерживающие распределенное сканирование, лучше.)

5
задан İsmet Alkan 8 April 2013 в 22:48
поделиться