Как сохранить исходный html-файл с помощью Apache Nutch

Question

Как сохранить исходный html-файл с помощью Apache Nutch

Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне получить исходные html-файлы с помощью Nutch?

Поддерживает ли Натч это? Если нет, то какие другие инструменты я могу использовать для достижения своей цели. (Инструменты, поддерживающие распределенное сканирование, лучше.)

5

nutch search-engine web-crawler

задан İsmet Alkan 8 April 2013 в 22:48

0 ответов

Другие вопросы по тегам:

nutch search-engine web-crawler

Как сохранить исходный html-файл с помощью Apache Nutch

0 ответов

Похожие вопросы: