Я видел ряд вопросов об удалении тегов HTML из строк, но я все еще немного не понимаю, как следует обрабатывать мой конкретный случай.
Я видел, что многие сообщения не рекомендуют использовать регулярные выражения для обработки HTML, но я подозреваю, что мой случай может потребовать разумного обхода этого правила.
Я пытаюсь анализировать PDF-файлы, и мне удалось преобразовать каждую страницу из моего образца PDF-файла в строку текста UTF -32. При появлении изображений вставляется тег стиля HTML -, содержащий имя и местоположение изображения (, которое сохраняется в другом месте ).
В отдельной части моего приложения мне нужно избавиться от этих тегов изображений. Поскольку мы имеем дело только с тегами изображений, я подозреваю, что использование регулярных выражений может быть оправдано.
У меня двоякий вопрос:
Для ясности теги имеют следующую структуру:<img src="/path/to/file"/>
Спасибо!