Поисковый робот в Python. Где я должен запустить и за чем я должен следовать? - Помощь необходима

Question

Поисковый робот в Python. Где я должен запустить и за чем я должен следовать? - Помощь необходима

У меня есть промежуточное знание в Python. если я должен записать поисковый робот в Python, за чем вещи должны я следовать и где должен я начинать. есть ли какая-либо определенная работа? любой совет помог бы..спасибо

6

python web-crawler

задан The Learner 29 July 2010 в 05:32

7 ответов

Другие вопросы по тегам:

python web-crawler

Похожие вопросы:

score 7 · Answer 1

Я настоятельно рекомендую взглянуть на Scrapy . Библиотека может работать с BeautifulSoup или любым предпочитаемым вами парсером HTML. Я лично использую его с lxml.html.

Из коробки вы получаете несколько вещей бесплатно:

Параллельные запросы, благодаря Twisted
CrawlSpider объекты рекурсивно ищут ссылки на всем сайте
Отличное разделение извлечения и обработки данных , который максимально использует возможности параллельной обработки

score 5 · Answer 2

Если вы все еще хотите написать его с нуля, вы захотите использовать модуль Mechanize . Он включает в себя все, что вам нужно для имитации браузера и автоматизации получения URL-адресов. Я буду лишним и также скажу BeautifulSoup для анализа любого полученного вами HTML. В противном случае я бы выбрал Scrapy ...

score 2 · Answer 3

Это зависит от ваших потребностей. Если вам нужен базовый веб-скребок, то вам подойдет Mechanize + BeautifulSoup.

Если вам нужен javascript для рендеринга, я бы выбрал Selenium или spynner . Оба хороши.

score 5 · Answer 4

Вам наверняка понадобится библиотека для разбора html. Для этого вы можете использовать BeautifulSoup. Вы можете найти множество примеров и руководств по получению урлов и обработке возвращаемого html на официальной странице: http://www.crummy.com/software/BeautifulSoup/

score 2 · Answer 5

В IBM Developer Works есть статья об этом https://www.ibm.com/developerworks/linux/library/l-spider/#N101C6. Скорее всего, вы захотите использовать библиотеки, которые предложили другие, но это даст вам общее представление о потоке.

score 3 · Answer 6

Почему бы не поискать существующий код, который уже делает то, что вам нужно? Если вам нужно создать его самостоятельно, все равно стоит посмотреть на существующий код и разобрать его, чтобы понять, как он работает.

score 1 · Answer 7

Еще одна хорошая библиотека, которая может вам понадобиться, - для парсинга фидов. Теперь, когда у вас есть BeautifulSoup для урлов, вы можете использовать Feedparser для фидов. http://www.feedparser.org/