Я делаю некоторую зачистку HTML с помощью регулярных выражений (да, я знаю, никогда не разбирайте HTML с помощью регексов, но я просто зачищаю его, и я также, к сожалению, не могу использовать какие-либо внешние библиотеки). Я использую регекс из книги Regular Expressions Cookbook, и он отлично работает, но я столкнулся с такой проблемой:
В строке Bob Saget
мой регекс сопоставляет email как тег.
Поэтому мой вопрос: является ли знак @
допустимым символом XML или HTML tag? (Я не спрашиваю, является ли он допустимым внутри атрибута; я знаю, что является) Если нет, то я смогу успешно исключить его в моем regex.
Я не уверен, где это искать. Я посмотрел здесь и думаю, что там говорится, что в XML знак at не допускается в теге; однако я был бы признателен за конкретные доказательства.