Как преобразовать объединенные символы UTF8 в один UTF8 символы в рубине?

Некоторые символы, такие как символ Юникода «СТРОЧНАЯ ЛАТИНСКАЯ БУКВА C С КАРОН», могут быть закодированы как 0xC4 0x8D , но также могут быть представлены двумя кодовыми точками для «LATIN SMALL LETTER C» и 'COMBINING CARON', который равен 0x63 0xcc 0x8c .
Подробнее здесь: http://www.fileformat.info/info/unicode/char/10d/index.htm

Интересно, есть ли библиотека, которая может преобразовывать 'СТРОЧНУЮ ЛАТИНСКУЮ БУКВУ C' + ' ОБЪЕДИНЕНИЕ КАРОНА 'в' СТРОЧНУЮ ЛАТИНСКУЮ БУКВУ C С КАРОНОМ '. Или есть таблица, содержащая эти преобразования?

15
задан deceze 4 August 2011 в 05:09
поделиться