Какое правильное регулярное выражение соответствует всем формам строчных букв utf-8 / unicode

Question

Какое правильное регулярное выражение соответствует всем формам строчных букв utf-8 / unicode

Я хотел бы сопоставить все строчные буквы в латинском блоке. Тривиальный '[az]' соответствует только символам между U + 0061 и U + 007A, но не всем другим строчным формам.

Я хотел бы сопоставить все строчные буквы, и самое главное, все строчные буквы с ударением в латинском блоке, используемом в языках EFIGS.

все строчные буквы с ударением в латинском блоке, используемом в языках EFIGS.

[a-zà-ý] - это начало, но все еще есть множество других строчных символов (см. http://www.unicode.org/charts/PDF/U0000.pdf ). Есть ли рекомендуемый способ сделать это?

FYI Я использую Python, но подозреваю, что эта проблема межъязыковая.

Встроенный в Python метод islower (), кажется, делает правильную проверку:

lower = ''
for c in xrange(0,2**16): 
  if unichr(c).islower(): 
    lower += unichr(c)

print lower

20

python regex unicode utf-8

задан slacy 7 March 2011 в 20:25

0 ответов

Другие вопросы по тегам:

python regex unicode utf-8

Какое правильное регулярное выражение соответствует всем формам строчных букв utf-8 / unicode

0 ответов

Похожие вопросы: