. Я потратил, как мне кажется, неразумное количество времени, пытаясь найти фактический формат для хэштегов.
Насколько я могу судить, Твиттер не опубликовал ни одного.
Я знаю, что многие люди придумали регулярные выражения для их анализа, однако регулярное выражение вашей библиотеки не является регулярным выражением моей библиотеки, и, возможно, мне все равно не нравится ваше.
Итак, я спрашиваю, есть ли какая-нибудь официальная спецификация? Мне не нужен ответ с регулярным выражением, мне нужен BNF или что-то подобное. Или, как минимум, полный список разделителей.
Дополнительные очки сложности - также важно получить их из случайного текста сообщений Unicode (не на английском языке).
Примечание: мне хорошо известны сущности, и они не применимы к моему случаю (месяцы сообщений твиттера, хранящихся в базе данных).