Скрейпинг включает в себя множество регулярных выражений для получения точных данных, которые вам нужны. Вы также должны знать, какие данные вы хотите анализировать и как вы хотите их хранить.
Чтобы получить страницы, вам нужно использовать такие библиотеки, как urllib (или urllib2) и регулярные выражения (re) или хороший скрипт beautifulsoup для выполнения грязной работы (http://www.crummy.com/software/BeautifulSoup/)
Если вы хотите создать чистого бота, который будет делать то, что делают поисковые системы, вам также нужно создать достаточно умного бота, чтобы знать, что вы не будете постоянно пинговать один и тот же домен (это приводит к DOS-атаке).