Я нашел этот вопрос , который дает мне возможность проверить, содержит ли строка китайский символ. Я не уверен, что диапазоны Unicode верны, но похоже, что они возвращают false для японского и корейского языков и true для китайского.
Чего он не делает, так это определения, является ли символ традиционным или упрощенным китайским. Как бы вы это узнали?
Q: Как узнать по 32-битному значению символа Unicode, если это китайский, корейский или японский символ?
http: // unicode .org / faq / han_cjk.html
Их аргумент о том, что символы независимо от их формы имеют одинаковое значение и, следовательно, должны быть представлены одним и тем же кодом. Ну это для меня не бессмысленно, потому что я анализирую отдельные символы, которые не работают с их решением:
Лучшее решение - посмотреть на текст в целом: если там много каны, то, вероятно, это японский, а если там довольно много хангыль, вероятно, корейский.