Какие символы Unicode, не относящиеся к BMP, наиболее часто используются на практике? [закрыто]

По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (Basic Multilingual Plane) пока самые распространенные? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16.

Я ожидал, что ответом будут китайские и японские символы, используемые в именах, но не включенные в наиболее распространенные многобайтовые наборы символов CJK, но в проекте, над которым я работаю больше всего, - англоязычном викисловаре, мы обнаружили, что готический алфавит пока гораздо более распространен.

ОБНОВЛЕНИЕ

Я написал несколько программных инструментов. сканировать всю Википедию на предмет символов, отличных от BMP, и, к своему удивлению, обнаружил, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в отношении китайской Википедии, но в ней также было много китайских иероглифов, используемых до 50 или 70 раз, включая «

101
задан hippietrail 30 May 2013 в 01:13
поделиться