Более быстрый / менее ресурсоемкий способ удалить HTML из больших файлов, чем BeautifulSoup? Или как лучше использовать BeautifulSoup?

В настоящее время у меня проблемы с вводом этого текста, потому что, согласно top , мой процессор загружен на 100%, а моя память - на 85,7%, все занято питоном.

Почему? Потому что мне пришлось пройти через 250-мегабайтный файл, чтобы удалить разметку. 250 мегабайт, вот и все! Я манипулировал этими файлами в Python с помощью множества других модулей и вещей; BeautifulSoup - это первый код, который вызывает у меня проблемы с чем-то настолько маленьким. Как почти 4 гигабайта ОЗУ используются для обработки 250 мегабайт HTML?

Я нашел (в stackoverflow) и использовал однострочник:

''.join(BeautifulSoup(corpus).findAll(text=True))

Вдобавок, похоже, удаляется все, НО разметка, которая является своего рода противоположность тому, что я хочу делать. Я уверен, что BeautifulSoup тоже может это сделать, но проблема со скоростью остается.

Есть ли что-нибудь похожее (удалить разметку, оставить текст надежно ) и НЕ требовать запуска Cray?

5
задан WaxProlix 24 January 2011 в 12:15
поделиться