Мне нужно разбить строку и извлечь слова, разделенные пробелами. Источник может быть на английском или японском. Английские пробельные символы включают табуляцию и пробел, и в японском тексте они тоже используются. (IIRC, все широко используемые японские наборы символов являются надмножествами US-ASCII.)
Таким образом, набор символов, который мне нужно использовать для разделения моей строки, включает в себя обычное пространство ASCII и табуляцию.
Но в японском языке есть - еще один символ пробела, обычно называемый «пробелом на всю ширину». Согласно служебной программе просмотра персонажей моего Mac, это U + 3000 «IDEOGRAPHIC SPACE». Это (обычно) результат, когда пользователь нажимает клавишу пробела при вводе текста в японском режиме ввода.
Есть ли другие символы, которые мне нужно учитывать?
Я обрабатываю текстовые данные, отправленные пользователями, которым было сказано "
Есть ли авторитетный ответ на такой вопрос?