Сравните китайские строки юникода, когда несколько кодовых точек имеют один и тот же символ?

Я пишу Java-код, который имеет дело с китайскими иероглифами, и я получил некоторые неожиданные результаты - строки, которые должны быть равны, не были. Вот один из оскорбительных символов, что означает «шесть» (пиньинь: liù): 六. Этот символ может быть представлен любой из двух кодовых точек:

F9D1 в блоке: CJK Compatibility Ideographs
516D в блоке: CJK Unified Ideographs

В Википедии есть страницаоб этих диапазонах символов, а в коротком разделе об идеографах совместимости упоминаются некоторые дубликаты, но в списке этот конкретный символ опущен.

Поэтому мне интересно:

  1. Есть ли где-нибудь список дубликатов символов Юникода, чтобы я мог преобразовать строки, прежде чем пытаться их сравнить?
  2. Это нормально, когда я имею дело с персонажами CJK, или я сделал что-то еще не так?

5
задан Deduplicator 19 September 2015 в 03:28
поделиться