получить ссылки с веб-страницы, используя python и BeautifulSoup

Question

получить ссылки с веб-страницы, используя python и BeautifulSoup

128

beautifulsoup web-scraping python hyperlink

задан QHarr 3 May 2019 в 05:41

5 ответов

Может быть много дублирующихся ссылок и вместе с внешними и вместе с внутренними ссылками. Дифференцироваться между двумя и просто получить уникальные ссылки с помощью наборов:

# Python 3.
import urllib    
from bs4 import BeautifulSoup

url = "http://www.espncricinfo.com/"
resp = urllib.request.urlopen(url)
# Get server encoding per recommendation of Martijn Pieters.
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))  
external_links = set()
internal_links = set()
for line in soup.find_all('a'):
    link = line.get('href')
    if not link:
        continue
    if link.startswith('http'):
        external_links.add(link)
    else:
        internal_links.add(link)

# Depending on usage, full internal links may be preferred.
full_internal_links = {
    urllib.parse.urljoin(url, internal_link) 
    for internal_link in internal_links
}

# Print all unique external and full internal links.
for link in external_links.union(full_internal_links):
    print(link)

0

ответ дан 24 November 2019 в 00:00

import urllib2
import BeautifulSoup

request = urllib2.Request("http://www.gpsbasecamp.com/national-parks")
response = urllib2.urlopen(request)
soup = BeautifulSoup.BeautifulSoup(response)
for a in soup.findAll('a'):
  if 'national-park' in a['href']:
    print 'found a url with national-park in the link'

27

ответ дан 24 November 2019 в 00:00

только для получения ссылок, без B.soup и regex:

import urllib2
url="http://www.somewhere.com"
page=urllib2.urlopen(url)
data=page.read().split("</a>")
tag="<a href=\""
endtag="\">"
for item in data:
    if "<a href" in item:
        try:
            ind = item.index(tag)
            item=item[ind+len(tag):]
            end=item.index(endtag)
        except: pass
        else:
            print item[:end]

для более сложных операций, конечно, BSoup по-прежнему предпочтительнее.

3

ответ дан 24 November 2019 в 00:00

У других есть рекомендуется BeautifulSoup, но гораздо лучше использовать lxml . Несмотря на название, он также предназначен для синтаксического анализа и очистки HTML. Он намного, намного быстрее, чем BeautifulSoup, и даже обрабатывает «сломанный» HTML лучше, чем BeautifulSoup (их претензия на известность). У него также есть API совместимости для BeautifulSoup, если вы не хотите изучать lxml API.

Ян Бликинг соглашается .

Нет причин больше использовать BeautifulSoup, если вы не используете Google App Engine или что-то, где не разрешено ничего, кроме Python.

lxml. html также поддерживает селекторы CSS3, поэтому такие вещи тривиальны.

Пример с lxml и xpath будет выглядеть так:

import urllib
import lxml.html
connection = urllib.urlopen('http://www.nytimes.com')

dom =  lxml.html.fromstring(connection.read())

for link in dom.xpath('//a/@href'): # select the url in href for all a tags(links)
    print link

48

ответ дан 24 November 2019 в 00:00

Другие вопросы по тегам:

beautifulsoup web-scraping python hyperlink

получить ссылки с веб-страницы, используя python и BeautifulSoup

5 ответов

Похожие вопросы: