У меня есть промежуточное знание в Python. если я должен записать поисковый робот в Python, за чем вещи должны я следовать и где должен я начинать. есть ли какая-либо определенная работа? любой совет помог бы..спасибо
Я настоятельно рекомендую взглянуть на Scrapy . Библиотека может работать с BeautifulSoup или любым предпочитаемым вами парсером HTML. Я лично использую его с lxml.html.
Из коробки вы получаете несколько вещей бесплатно:
CrawlSpider
объекты рекурсивно ищут ссылки на всем сайте Если вы все еще хотите написать его с нуля, вы захотите использовать модуль Mechanize . Он включает в себя все, что вам нужно для имитации браузера и автоматизации получения URL-адресов. Я буду лишним и также скажу BeautifulSoup для анализа любого полученного вами HTML. В противном случае я бы выбрал Scrapy ...
Это зависит от ваших потребностей. Если вам нужен базовый веб-скребок, то вам подойдет Mechanize + BeautifulSoup.
Если вам нужен javascript для рендеринга, я бы выбрал Selenium или spynner . Оба хороши.
Вам наверняка понадобится библиотека для разбора html. Для этого вы можете использовать BeautifulSoup. Вы можете найти множество примеров и руководств по получению урлов и обработке возвращаемого html на официальной странице: http://www.crummy.com/software/BeautifulSoup/
В IBM Developer Works есть статья об этом https://www.ibm.com/developerworks/linux/library/l-spider/#N101C6. Скорее всего, вы захотите использовать библиотеки, которые предложили другие, но это даст вам общее представление о потоке.
Почему бы не поискать существующий код, который уже делает то, что вам нужно? Если вам нужно создать его самостоятельно, все равно стоит посмотреть на существующий код и разобрать его, чтобы понять, как он работает.
Еще одна хорошая библиотека, которая может вам понадобиться, - для парсинга фидов. Теперь, когда у вас есть BeautifulSoup для урлов, вы можете использовать Feedparser для фидов. http://www.feedparser.org/