_Фактический_ формат Twitter для хэштегов? Не ваше регулярное выражение, не его код - настоящий?

Обновление: используйте сущности Twitter, если можете - они выяснили это для вас, а также другие элементы. В моем случае у меня просто есть твит без сущностей и всех дополнительных метаданных

. Я потратил, как мне кажется, неразумное количество времени, пытаясь найти фактический формат для хэштегов.

Насколько я могу судить, Твиттер не опубликовал ни одного.

Я знаю, что многие люди придумали регулярные выражения для их анализа, однако регулярное выражение вашей библиотеки не является регулярным выражением моей библиотеки, и, возможно, мне все равно не нравится ваше.

Итак, я спрашиваю, есть ли какая-нибудь официальная спецификация? Мне не нужен ответ с регулярным выражением, мне нужен BNF или что-то подобное. Или, как минимум, полный список разделителей.

Дополнительные очки сложности - также важно получить их из случайного текста сообщений Unicode (не на английском языке).

Примечание: мне хорошо известны сущности, и они не применимы к моему случаю (месяцы сообщений твиттера, хранящихся в базе данных).

14
задан dethSwatch 15 July 2016 в 14:37
поделиться