Что такое все японские пробельные символы?

Question

Что такое все японские пробельные символы?

Мне нужно разбить строку и извлечь слова, разделенные пробелами. Источник может быть на английском или японском. Английские пробельные символы включают табуляцию и пробел, и в японском тексте они тоже используются. (IIRC, все широко используемые японские наборы символов являются надмножествами US-ASCII.)

Таким образом, набор символов, который мне нужно использовать для разделения моей строки, включает в себя обычное пространство ASCII и табуляцию.

Но в японском языке есть - еще один символ пробела, обычно называемый «пробелом на всю ширину». Согласно служебной программе просмотра персонажей моего Mac, это U + 3000 «IDEOGRAPHIC SPACE». Это (обычно) результат, когда пользователь нажимает клавишу пробела при вводе текста в японском режиме ввода.

Есть ли другие символы, которые мне нужно учитывать?

Я обрабатываю текстовые данные, отправленные пользователями, которым было сказано "

Есть ли авторитетный ответ на такой вопрос?

11

text unicode whitespace tokenize cjk

задан yole 30 June 2015 в 22:13

0 ответов

Другие вопросы по тегам:

text unicode whitespace tokenize cjk

Что такое все японские пробельные символы?

0 ответов

Похожие вопросы: