Восстановление абсолютных URL-адресов из относительных URL-адресов на странице

Question

Восстановление абсолютных URL-адресов из относительных URL-адресов на странице

Учитывая абсолютный URL-адрес страницы и относительную ссылку, найденную на этой странице, существует ли способ a)окончательно восстановить или b)наилучшим образом- усилие восстановить абсолютный URL-адрес относительной ссылки?

В моем случае я читаю html-файл с заданного URL-адреса, используя красивый суп, удаляя все источники тегов img и пытаясь создать список абсолютных URL-адресов изображений страниц.

Пока что моя функция Python выглядит так:

function get_image_url(page_url,image_src):

    from urlparse import urlparse
    # parsed = urlparse('http://user:pass@NetLoc:80/path;parameters?query=argument#fragment')
    parsed = urlparse(page_url)
    url_base = parsed.netloc
    url_path = parsed.path

    if src.find('http') == 0:
        # It's an absolute URL, do nothing.
        pass
    elif src.find('/') == 0:
        # If it's a root URL, append it to the base URL:
        src = 'http://' + url_base + src
    else:
        # If it's a relative URL, ?

ПРИМЕЧАНИЕ:Не нужен ответ Python, нужна только логика.

21

html python url-parsing

задан Yarin 15 March 2012 в 11:13

0 ответов

Другие вопросы по тегам:

html python url-parsing

Восстановление абсолютных URL-адресов из относительных URL-адресов на странице

0 ответов

Похожие вопросы: