0
ответов

Unicode эквиваленты для \ w и \ b в регулярных выражениях Java?

Многие современные реализации регулярных выражений интерпретируют сокращение класса символов \ w как «любую букву, цифру или соединительную пунктуацию» (обычно: подчеркивание). Таким образом, регулярное выражение типа \ w + соответствует словам типа ...
вопрос задан: 29 March 2012 18:21
0
ответов

Получение символов Юникода языка в Java

Есть ли какой-либо способ в Java, чтобы я мог получить все символы Юникода символы определенного языка (например, бенгали или арабского)?
вопрос задан: 29 March 2012 18:20
0
ответов

Соответствует ли \ w всем буквенно-цифровым символам, определенным в стандарту Unicode?

Соответствует ли \ w в Perl всем буквенно-цифровым символам, определенным в стандарте Unicode? Например, будет ли \ w соответствовать всем (скажем) китайским и русским буквенно-цифровым символам? Я написал простой тестовый сценарий (см. ...
вопрос задан: 29 March 2012 18:20
0
ответов

Итерация по кодовым точкам Unicode символ за символом

У меня есть серия кодовых точек Unicode. Что мне действительно нужно сделать, так это перебрать эти кодовые точки как серию символов, а не как серию кодовых точек, и определить свойства каждой отдельной ...
вопрос задан: 29 March 2012 18:17
0
ответов

Разделить строку с помощью разделителя Unicode

Мне нужно разделить строку с "-" в качестве разделителя в java. Например: «Одноместный номер - приятного пребывания». У меня есть одни и те же данные на английском и немецком языках в зависимости от региона. Следовательно, я не могу использовать обычный
вопрос задан: 29 March 2012 18:15
0
ответов

Соответствие буквенным символам Unicode в PCRE / PHP

Я пытаюсь написать достаточно разрешающий валидатор для имен в PHP, и моя первая попытка состоит из следующего шаблона: // буквы Unicode, апостроф, дефис, пробел { {1}} $ namePattern = "/ ^ ([\\ p {L} ...
вопрос задан: 29 March 2012 18:13
0
ответов

Что такое категория {L} Unicode?

Я наткнулся на некоторые регулярные выражения, содержащие [^ \\ p {L}]. Я понимаю, что здесь используется некоторая форма категории Unicode, но когда я проверил документацию, я обнаружил только следующую букву «L» ...
вопрос задан: 29 March 2012 18:12
0
ответов

معادل نویسه های POSIX در عبارات منظم جاوا

می خواهم از یک عبارت منظم مانند این در جاوا: [[= a =] [= e =] [= i =]]. اما جاوا از کلاسهای POSIX پشتیبانی نمی کند [= a =]، [= e =] و غیره. چگونه می توانم این کار را انجام دهم؟ به عبارت دقیق تر ، آیا راهی وجود دارد که ... ...
вопрос задан: 29 March 2012 18:04
0
ответов

Is There a Way to Match Any Unicode non-Alphabetic Character?

I have some documents that went through OCR conversion from PDF into HTML. Because of that, they wound up having lots of random unicode punctuation where the converter messed up (i.e. elipses, etc...)....
вопрос задан: 29 March 2012 18:02
0
ответов

Список буквенных символов Unicode

I нужен список диапазонов символов Юникода со свойством Alphabetic, как определено в http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic. Однако я не могу найти их в Unicode ...
вопрос задан: 29 March 2012 16:40