Удаление тегов скрипта и стиля из HTML с помощью BeautifulSoup?

У меня есть простой сценарий, в котором я получаю HTML-страницу и передаю ее BeautifulSoup, чтобы удалить все теги сценариев и стилей, затем я хочу передать результат HTML другому методу. Есть простой способ сделать это? Просматривая BeautifulSoup.py, я его еще не видел.

soup = BeautifulSoup(html)
for script in soup("script"):
    soup.script.extract()

for style in soup("style"):
    soup.style.extract()
contents = soup.html.contents
text = loader.extract_text(contents)

contents = soup.html.contents просто получает список, и все там определяется в классах. Есть ли метод, который просто возвращает необработанный html после того, как суп им манипулирует? Или мне просто нужно просмотреть список contents и собрать html вместе, за исключением тегов скрипта и стиля?

Или есть еще лучшее решение для достижения того, что я хочу?

7
задан Yarin 16 March 2012 в 02:19
поделиться