Я использую lxml для синтаксического анализа HTML-файлов с заданными URL-адресами.
Например:
link = 'https://abc.com/def'
htmltree = lxml.html.parse(link)
Мой код работает хорошо в большинстве случаев, в том числе с http: //
. Однако я обнаружил, что для каждого URL https: //
lxml просто получает IOError . Кто-нибудь знает причину? И возможно, как исправить эту проблему?
Кстати, я хочу придерживаться lxml, чем переключаться на BeautifulSoup, поскольку у меня уже есть готовая программа.