Есть ли способ использовать удобочитаемость и python для извлечения только текста, а не HTML?

Мне нужно извлечь чистый текст из случайной веб-страницы во время выполнения на стороне сервера. Я использую Google App Engine и порт Python Readability. Есть несколько таких.

  1. ранняя версия от gfxmonk , основанная на BeautifulSoup
  2. версия от minvolai основана на gfxmonk, за исключением того, что использует lxml, а не BeautifulSoap, что делает его (в соответствии с minvolai, см. страницу проекта )быстрее, хотя и вводит зависимость от lxml.
  3. версия Юрия Бабурова по прозвищу бурый . То же, что у minvolai, зависит от lxml. Также зависит от charde для определения кодировки.

Я использую версию Юрия, так как она самая последняя и, кажется, находится в активной разработке.Мне удалось запустить его в Google App Engine, используя Python 2.7. Теперь «проблема» в том, что он возвращает HTML, тогда как мне нужен чистый текст.

Совет в этой статье Stackoverflow об извлечении ссылок заключается в использовании BeatifulSoup. Буду, если не будет другого выхода. BeatifulSoup будет еще одной зависимостью, так как я использую версию на основе lxml.

Мои вопросы:

  • Есть ли способ получить чистый текст из версии Python Readability, которую я использую, без разветвления кода?
  • Есть ли способ легко получить чистый текст из HTML-результата Python Readability, например. используя lxml, или BeatifulSoap, или RegEx, или что-то еще
  • Если ответ на вышеприведенный ответ «нет» или «да», но не так просто, как можно изменить читабельность Python. Достаточно ли желательна такая модификация (для достаточного количества людей ), чтобы сделать такое расширение официальным?

6
задан Community 23 May 2017 в 11:55
поделиться