Я только начал изучать веб-скрапинг с помощью Python. Однако я уже столкнулся с некоторыми
Моя цель — удалить из сети названия различных видов тунца с сайта fishbase.org (http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon)
. Я не могу извлечь все названия видов.
Вот что у меня есть на данный момент:
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
Отсюда я не знаю, как я буду извлекать названия видов. (т.е. soup.find_all("a", text=re.compile("\d+\s+\d+"))
для захвата текстов внутри тега...
Любой ввод будет сильно Спасибо!