Скрапинг данных из веб-страниц с помощью Python?

Я только начал изучать веб-скрапинг с помощью Python. Однако я уже столкнулся с некоторыми

Моя цель — удалить из сети названия различных видов тунца с сайта fishbase.org (http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon)

. Я не могу извлечь все названия видов.

Вот что у меня есть на данный момент:

import urllib2
from bs4 import BeautifulSoup

fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)

soup = BeautifulSoup(html_doc)

spans = soup.find_all(

Отсюда я не знаю, как я буду извлекать названия видов. (т.е. soup.find_all("a", text=re.compile("\d+\s+\d+")) для захвата текстов внутри тега...

Любой ввод будет сильно Спасибо!

5
задан Guy Sirton 5 March 2012 в 07:23
поделиться