Поисковый робот в Python. Где я должен запустить и за чем я должен следовать? - Помощь необходима

У меня есть промежуточное знание в Python. если я должен записать поисковый робот в Python, за чем вещи должны я следовать и где должен я начинать. есть ли какая-либо определенная работа? любой совет помог бы..спасибо

6
задан The Learner 29 July 2010 в 05:32
поделиться

7 ответов

Я настоятельно рекомендую взглянуть на Scrapy . Библиотека может работать с BeautifulSoup или любым предпочитаемым вами парсером HTML. Я лично использую его с lxml.html.

Из коробки вы получаете несколько вещей бесплатно:

  • Параллельные запросы, благодаря Twisted
  • CrawlSpider объекты рекурсивно ищут ссылки на всем сайте
  • Отличное разделение извлечения и обработки данных , который максимально использует возможности параллельной обработки
7
ответ дан 8 December 2019 в 04:51
поделиться

Если вы все еще хотите написать его с нуля, вы захотите использовать модуль Mechanize . Он включает в себя все, что вам нужно для имитации браузера и автоматизации получения URL-адресов. Я буду лишним и также скажу BeautifulSoup для анализа любого полученного вами HTML. В противном случае я бы выбрал Scrapy ...

5
ответ дан 8 December 2019 в 04:51
поделиться

Это зависит от ваших потребностей. Если вам нужен базовый веб-скребок, то вам подойдет Mechanize + BeautifulSoup.

Если вам нужен javascript для рендеринга, я бы выбрал Selenium или spynner . Оба хороши.

2
ответ дан 8 December 2019 в 04:51
поделиться

Вам наверняка понадобится библиотека для разбора html. Для этого вы можете использовать BeautifulSoup. Вы можете найти множество примеров и руководств по получению урлов и обработке возвращаемого html на официальной странице: http://www.crummy.com/software/BeautifulSoup/

5
ответ дан 8 December 2019 в 04:51
поделиться

В IBM Developer Works есть статья об этом https://www.ibm.com/developerworks/linux/library/l-spider/#N101C6. Скорее всего, вы захотите использовать библиотеки, которые предложили другие, но это даст вам общее представление о потоке.

2
ответ дан 8 December 2019 в 04:51
поделиться

Почему бы не поискать существующий код, который уже делает то, что вам нужно? Если вам нужно создать его самостоятельно, все равно стоит посмотреть на существующий код и разобрать его, чтобы понять, как он работает.

3
ответ дан 8 December 2019 в 04:51
поделиться

Еще одна хорошая библиотека, которая может вам понадобиться, - для парсинга фидов. Теперь, когда у вас есть BeautifulSoup для урлов, вы можете использовать Feedparser для фидов. http://www.feedparser.org/

1
ответ дан 8 December 2019 в 04:51
поделиться
Другие вопросы по тегам:

Похожие вопросы: