Java, JavaCC: Как проанализировать символы вне BMP?

Question

Java, JavaCC: Как проанализировать символы вне BMP?

Посмотрите на определение NameStartChar:

Если я интерпретирую это правильно, последний диапазон (#x10000-#xEFFFF) идет вне диапазона UTF16 Java char ввести. Таким образом, это должен быть UTF32, правильно? Так, я должен проверить пар char против этого диапазона, вместо сингла chars, правильно?

Мои вопросы:

Как я проверяю на такие диапазоны символов с помощью стандартных методов Java?
Как возможно определить такие диапазоны в JavaCC?
- JavaCC жалуется на \u10000 и \uEFFFF

Спасибо!

Примечание: Не волнуйтесь, я не пытаюсь записать собственный XML-синтаксический-анализатор.
Править: Я пишу синтаксический анализатор, который проверил бы, будет ли ввод текста от разных текстовых форматов (не XML) соответствовать допустимым именам XML.

5

java unicode utf-16 javacc

задан Alan Moore 20 May 2010 в 16:50

1 ответ

Другие вопросы по тегам:

java unicode utf-16 javacc

Похожие вопросы:

score 3 · Accepted Answer

Взгляните на Character.toCodePoint (char, char) , который преобразует суррогатную пару в кодовую точку полного диапазона. String.codePointAt тоже может быть вам полезен.

В символах и строках есть много других суррогатов. Чтобы точно знать , какие методы вызывать, нам нужно знать точные детали вашей ситуации.