Разбор документа с помощью BeautifulSoup без анализа содержимого тегов

Я пишу приложение для блога с Django. Я хочу разрешить авторам комментариев использовать некоторые теги (например, , a и так далее), но отключить все остальные.

Кроме того, я хочу разрешить им добавлять код в тегах , и их анализируют пигменты.

Например, кто-то может написать этот комментарий:

I like this article, but the third code example <em>could have been simpler</em>:

<code lang="c">
#include <stdbool.h>
#include <stdio.h>

int main()
{
    printf("Hello World\n");
}
</code>

Проблема в том, что когда я анализирую комментарий с помощью BeautifulSoup, чтобы удалить запрещенные теги HTML, он также анализирует внутреннюю часть блоки и обрабатывают и , как если бы они были тегами HTML.

Как я могу сказать BeautifulSoup, чтобы он не анализировал блоки ? Может быть, есть другие парсеры HTML, которые лучше подходят для этой работы?

10
задан Marcelo Cantos 24 October 2010 в 08:03
поделиться