Загрузка веб-страницы и всех ее файлов ресурсов в Python

Question

Загрузка веб-страницы и всех ее файлов ресурсов в Python

Я хочу быть в состоянии загрузить страницу и все ее связанные ресурсы (изображения, таблицы стилей, файлы сценария, и т.д.) использование Python. Я (несколько) знаком с urllib2 и знаю, как загрузить отдельные URL, но прежде чем я пойду и начну взламывать в BeautifulSoup + urllib2, я хотел быть уверенным, что уже не было Python, эквивалентного "wget - необходимое страницы http://www.google.com".

Конкретно я интересуюсь сбором статистической информации о том, сколько времени это берет для загрузки всей веб-страницы, включая все ресурсы.

Спасибо Mark

9

python urllib2 wget

задан Mark Ransom 9 May 2009 в 10:28

2 ответа

Другие вопросы по тегам:

python urllib2 wget

Похожие вопросы:

score 3 · Answer 1

Уэбсакер? См. http://effbot.org/zone/websucker.htm

3

ответ дан 3 November 2019 в 07:14

score 2 · Answer 2

websucker.py не импортирует ссылки css. HTTrack.com - это не python, это C/C++, но это хорошая, поддерживаемая, утилита для загрузки веб-сайта для автономного просмотра.

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker не разбирает css "@import url"

Guido> Это, по сути, неподдерживаемый и неосвещенный код примера. Не стесняйтесь присылайте исправления!