Я пытаюсь использовать httrack (http://www.httrack.com/) для загрузки единственной страницы, не всего сайта. Так, например, при использовании httrack для загрузки www.google.com, это должно только загрузить HTML, найденный в соответствии с www.google.com наряду со всеми таблицами стилей, изображениями и JavaScript, и не перейти по любым ссылкам на images.google.com, labs.google.com или www.google.com/subdir/ и т.д.
Я попробовал -w
опция, но это не имело никакого значения.
Какова была бы правильная команда?
Править
Я пытался использовать httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1
но затем это копия привычки любые изображения.
То, что я в основном хочу, просто загружает индексный файл того домена наряду со всеми активами, но не содержание любых внешних или внутренних ссылок.
Не могли бы вы использовать wget вместо httrack? wget -p
загрузит одну страницу и все ее "предпосылки" (изображения, таблицы стилей).
Глядя на пример:
httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v
Последняя часть является регексом. Просто сделайте полностью соответствующий регекс.
httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2
Мне пришлось локализовать, иначе я получу страницу редиректа. Вы должны локализовать на тот гугл, на который будете перенаправлены.
Цель HTTTrack - следовать по ссылкам. Попробуйте настроить -внешняя глубина=0
.