C++ выполняет итерации или разделил строку UTF-8 на массив символов?

Question

C++ выполняет итерации или разделил строку UTF-8 на массив символов?

Поиск платформы - и сторонней библиотеки - независимый способ выполнить итерации строки UTF-8 или разделить его на массив символов UTF-8.

Отправьте фрагмент кода.

Решенный: C++ выполняет итерации или разделил строку UTF-8 на массив символов?

10

c++ arrays utf-8 split

задан Community 23 May 2017 в 12:10

5 ответов

Если я правильно понял, похоже, что вы хотите найти начало каждого символа UTF-8. Если это так, то разобрать их будет довольно просто (интерпретировать их - совсем другое дело). Но определение того, сколько октетов задействовано, хорошо определено в RFC:

Char. number range  |        UTF-8 octet sequence
   (hexadecimal)    |              (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Например, если lb имеет первый октет символа UTF-8, я думаю, что количество октетов будет определено следующим образом.

unsigned char lb;

if (( lb & 0x80 ) == 0 )          // lead bit is zero, must be a single ascii
   printf( "1 octet\n" );
else if (( lb & 0xE0 ) == 0xC0 )  // 110x xxxx
   printf( "2 octets\n" );
else if (( lb & 0xF0 ) == 0xE0 ) // 1110 xxxx
   printf( "3 octets\n" );
else if (( lb & 0xF8 ) == 0xF0 ) // 1111 0xxx
   printf( "4 octets\n" );
else
   printf( "Unrecognized lead byte (%02x)\n", lb );

В конечном итоге, однако, вам будет гораздо лучше использовать существующую библиотеку, как было предложено в другом сообщении. Приведенный выше код может классифицировать символы по октетам, но он ничего не поможет "сделать" с ними после того, как это будет сделано.

27

ответ дан 3 December 2019 в 13:44

UTF8 CPP - именно то, что вам нужно

2

ответ дан 3 December 2019 в 13:44

Попробуйте Библиотека ICU .

1

ответ дан 3 December 2019 в 13:44

Без манжеты:

// Return length of s converted. On success return should equal s.length().
// On error return points to the character where decoding failed.
// Remember to check the success flag since decoding errors could occur at
// the end of the string
int convert(std::vector<int>& u, const std::string& s, bool& success) {
    success = false;
    int cp = 0;
    int runlen = 0;
    for (std::string::const_iterator it = s.begin(), end = s.end(); it != end; ++it) {
        int ch = static_cast<unsigned char>(*it);
        if (runlen > 0) {
            if ((ch & 0xc0 != 0x80) || cp == 0) return it-s.begin();
            cp = (cp << 6) + (ch & 0x3f);
            if (--runlen == 0) {
                u.push_back(cp);
                cp = 0;
            }
        }
        else if (cp == 0) {
            if (ch < 0x80)      { u.push_back(ch); }
            else if (ch > 0xf8) return it-s.begin();
            else if (ch > 0xf0) { cp = ch & 7; runlen = 3; }
            else if (ch > 0xe0) { cp = ch & 0xf; runlen = 2; }
            else if (ch > 0xc0) { cp = ch & 0x1f; runlen = 1; }
            else return it-s.begin(); // stop on error
        }
        else return it-s.begin();
    }
    success = runlen == 0; // verify we are between codepoints
    return s.length();
}

0

ответ дан 3 December 2019 в 13:44

Другие вопросы по тегам:

c++ arrays utf-8 split

C++ выполняет итерации или разделил строку UTF-8 на массив символов?

5 ответов

Похожие вопросы: