Удаление тегов html-изображений и всего, что между ними, из строки

Я видел ряд вопросов об удалении тегов HTML из строк, но я все еще немного не понимаю, как следует обрабатывать мой конкретный случай.

Я видел, что многие сообщения не рекомендуют использовать регулярные выражения для обработки HTML, но я подозреваю, что мой случай может потребовать разумного обхода этого правила.

Я пытаюсь анализировать PDF-файлы, и мне удалось преобразовать каждую страницу из моего образца PDF-файла в строку текста UTF -32. При появлении изображений вставляется тег стиля HTML -, содержащий имя и местоположение изображения (, которое сохраняется в другом месте ).

В отдельной части моего приложения мне нужно избавиться от этих тегов изображений. Поскольку мы имеем дело только с тегами изображений, я подозреваю, что использование регулярных выражений может быть оправдано.

У меня двоякий вопрос:

  1. Должен ли я использовать регулярное выражение для удаления этих тегов, или мне все же следует использовать модуль синтаксического анализа HTML, такой как BeautifulSoup?
  2. Какое регулярное выражение или конструкцию BeautifulSoup следует использовать? Другими словами, как мне это закодировать?

Для ясности теги имеют следующую структуру:<img src="/path/to/file"/>

Спасибо!

7
задан blz 7 May 2012 в 17:23
поделиться