Логика WGet в порядке загрузки

Это более общий вопрос, но он имеет более широкие последствия для проекта интеллектуального анализа данных, который я выполняю. Я использую wget для зеркалирования архивных веб-страниц для анализа. Это большой объем данных, и мой текущий процесс зеркалирования длится почти неделю.Что дало мне много времени, чтобы посмотреть на результат.

Как wget определяет порядок загрузки страниц? Кажется, я не могу различить последовательную логику в его процессе принятия решений (он не выполняется в алфавитном порядке, по дате создания исходного сайта или по типу файла). Когда я начну работать с данными, это будет очень полезно понять.

FWIW, вот команда, которую я использую (для этого требуются файлы cookie, и хотя TOS сайта разрешает доступ «любыми средствами», я не хочу рисковать) - где SITE = URL:

wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE

Отредактировано для добавления: В комментариях к полезному ответу Чоуна я немного уточнил свой вопрос, так что вот он. На более крупных сайтах - скажем, epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - я обнаружил, что сначала создается структура каталогов, а некоторые страниц index.html / default.html, но затем возвращается по разрозненным веб-сайтам еще несколько раз (например, захватывая еще несколько изображений и подстраниц на каждом проходе)

5
задан programming_historian 15 October 2011 в 23:40
поделиться