Извлечение текста из файла HTML с помощью Python

223
задан Community 23 May 2017 в 00:31
поделиться

3 ответа

html2text является программой Python, которая делает довольно хорошее задание в этом.

125
ответ дан Alireza Savand 23 November 2019 в 04:00
поделиться

PyParsing делает отличную работу. PyParsing wiki был уничтожен, таким образом, вот другое местоположение, где существуют примеры использования PyParsing ( ссылка в качестве примера ). Одна причина того, чтобы наделить немного времени pyparsing состоит в том, что он также записал, что очень краткое очень хорошо организовало руководство Короткого пути O'Reilly, которое также недорого.

Однако я использую BeautifulSoup много и не то, чтобы трудно заниматься проблемами объектов, можно преобразовать их перед выполнением BeautifulSoup.

Goodluck

6
ответ дан PyNEwbie 23 November 2019 в 04:00
поделиться

Вы также можете использовать метод html2text в библиотеке стрипограмм.

from stripogram import html2text
text = html2text(your_html_string)

Чтобы установить стрипограмму, запустите sudo easy_install stripogram

8
ответ дан 23 November 2019 в 04:00
поделиться
Другие вопросы по тегам:

Похожие вопросы: