Python Web Crawlers и «получение» исходного кода html

Поэтому мой брат хотел, чтобы я написал веб-сканер на Python (самоучка), и я знаю C ++, Java и немного html. Я использую версию 2.7 и читаю библиотеку python, но у меня есть несколько проблем 1. Концепция httplib.HTTPConnection и запроса для меня является новой, и я не понимаю, загружает ли он HTML-скрипт, такой как cookie или экземпляр. Если вы сделаете оба из них, вы получите источник для страницы веб-сайта? И какие слова мне нужно знать, чтобы изменить страницу и вернуть измененную страницу.

Просто для фона, мне нужно скачать страницу и заменить любые img теми, что у меня есть

И было бы неплохо если вы, ребята, могли бы сказать мне ваше мнение о 2,7 и 3,1

18
задан Dan 20 August 2010 в 18:09
поделиться

1 ответ

Первое, что вам нужно сделать, это прочитать спецификацию HTTP , в которой объясняется, что вы можете ожидать получить по сети. Данные, возвращаемые внутри содержимого, будут «обработанной» веб-страницей, а не источником. Источником может быть JSP, сервлет, сценарий CGI, короче говоря, что угодно, и у вас нет доступа к этому. Вы получаете только тот HTML-код, который вам отправил сервер. В случае статической HTML-страницы, да, вы увидите «источник». Но для всего остального вы видите сгенерированный HTML, а не источник.

Когда вы говорите изменить страницу и вернуть измененную страницу , что вы имеете в виду?

0
ответ дан 30 November 2019 в 06:19
поделиться
Другие вопросы по тегам:

Похожие вопросы: