Как я могу связать блоки Unicode с языками / скриптами?

Я пытаюсь найти ресурс, который можно использовать для подключения языков (или, что более вероятно, скриптов) к блокам символов Unicode. Таким ресурсом будет используется для поиска таких вопросов, как «Какие блоки Unicode используются во французском языке?» или «Какие языки используют блок из 0A80-0AFF ( http://unicodinator.com/#Block-Gujarati )?» вы знаете о таком ресурсе?

Я ожидал, что смогу легко найти эту информацию на unicode.org . Я быстро нашел отличную таблицу, которая связывает коды стран с языками ([ http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html ). Но я потратил довольно много времени на поиски чего-то, что связано с Unicode. Блокирует языки. Возможно, у меня возникла проблема с терминологией, не позволяющая мне соединить точки здесь ...

Я не разборчив в том, что я s в данном случае означает «язык» (код Java Locale, код ISO 639 или что-то еще). Я также понимаю, что точных ответов может не быть, потому что, например, арабский документ может содержать латинский и другой текст в дополнение к символам из арабских блоков ( http://unicodinator.com/#Block-Arabic ], http://unicodinator.com/#Block-Arabic_Supplement ). Но, конечно, должна быть какая-то таблица, в которой говорится, что «эти языки идут с этими блоками» ... Я также не разборчив в формате (XML, CSV, что угодно), я могу легко преобразовать это в данные, которые я могу использовать для своего приложения . И снова я понимаю, что ссылка, вероятно, будет связывать скрипты с блоками, а не с языками (хотя скрипты могут быть сопоставлены с языками).

Я понимаю, что это будет таблица «многие ко многим» ( поскольку во многих языках используются символы из нескольких блоков, а многие блоки используются в нескольких языках); Я понимаю, что на этот вопрос нельзя дать точного ответа, поскольку кодовые точки Unicode не зависят от языка - однако, как и вопрос «какие языки есть в этой стране» (ответ, вероятно, «большинство из них» для большинства стран), все же таблица подобное ( http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html ) все еще возможно создать, значимое и полезное.

Что касается ] почему мне нужна такая вещь: я хотел бы улучшить http://unicodinator.com глобальными тепловыми картами для блоков кода и списками языков; У меня также есть концепция игры, над которой я работаю. Помимо этого, вероятно, есть много других применений, которые другие люди могли бы найти для этого (создание шрифтов? Эвристическое, быстрое, наиболее вероятное определение языка теперь, когда Google Translate API уходит? Исследовательские проекты?).

15
задан jwl 22 June 2011 в 16:36
поделиться