Действительно ли возможно
A. узнайте, ли символ китайский (упрощенный) и в этом случае
B. получить систему транслитерации китайских иероглифов? example: 你好 => nǐhǎo использование Java или php?
Удачи
A)
Да. Все символы, представленные в Юникоде, имеют уникальный числовой индекс, называемый кодовой точкой .
Если вам известен диапазон кодовых точек для упрощенного китайского языка и вы знаете, как получить кодовую точку Unicode для данного символа, простое сравнение покажет вам, находится ли данный символ в пределах упрощенного китайского диапазона.
В существующем вопросе есть решение для получения кодовой точки Unicode для символа в PHP:
Как получить номер кодовой точки для данного символа в строке utf-8?
В Java - статическая java. lang. Метод Character :: codePointAt () даст вам то, что вам нужно.
B)
Преобразование упрощенного китайского символа или строки в пиньинь, скорее всего, потребует некоторой формы сопоставления с кодовой точкой юникода в качестве ключа и соответствующим пиньинь в качестве значения.
Пример этого в PHP показан на http://kingphp.com/108.html .
Простой поиск в Google по запросу [java pinyin] открывает ряд вариантов, два из которых относятся к библиотекам китайского языка и pinyin по адресу http://kiang.org/jordan/software/pinyinime/ и ] http://pinyin4j.sourceforge.net/ .
Если вы используете utf-8 для интерпретации ваших файлов и вызовов БД, я полагаю, что простое
$new_text = preg_replace(array('/你好/',...), array('nǐhǎo',...), $old_text);
должно помочь.
Откуда у вас струна?