Как я усекаю строку Java для помещений в данное число байтов, однажды закодированный UTF-8?

Question

Как я усекаю строку Java для помещений в данное число байтов, однажды закодированный UTF-8?

NullPointerException s - исключения, возникающие при попытке использовать ссылку, которая указывает на отсутствие местоположения в памяти (null), как если бы она ссылалась на объект. Вызов метода по нулевой ссылке или попытка получить доступ к полю нулевой ссылки вызовет функцию NullPointerException. Они наиболее распространены, но другие способы перечислены на странице NullPointerException javadoc.

Вероятно, самый быстрый пример кода, который я мог бы придумать для иллюстрации NullPointerException, be:

public class Example {

    public static void main(String[] args) {
        Object obj = null;
        obj.hashCode();
    }

}

В первой строке внутри main я явно устанавливаю ссылку Object obj равной null. Это означает, что у меня есть ссылка, но она не указывает на какой-либо объект. После этого я пытаюсь обработать ссылку так, как если бы она указывала на объект, вызывая метод на нем. Это приводит к NullPointerException, потому что нет кода для выполнения в местоположении, на которое указывает ссылка.

(Это техничность, но я думаю, что она упоминает: ссылка, которая указывает на null, равна 't то же, что и указатель C, указывающий на недопустимую ячейку памяти. Нулевой указатель буквально не указывает на в любом месте , который отличается от указаний на местоположение, которое оказывается недопустимым.)

32

java string unicode utf-8 truncate

задан hippietrail 24 April 2011 в 19:47

4 ответа

Необходимо использовать CharsetEncoder, простое getBytes() + копия столько же сколько Вы, банка может сократить UTF-8 charcters в половине.

Что-то вроде этого:

public static int truncateUtf8(String input, byte[] output) {

    ByteBuffer outBuf = ByteBuffer.wrap(output);
    CharBuffer inBuf = CharBuffer.wrap(input.toCharArray());

    Charset utf8 = Charset.forName("UTF-8");
    utf8.newEncoder().encode(inBuf, outBuf, true);
    System.out.println("encoded " + inBuf.position() + " chars of " + input.length() + ", result: " + outBuf.position() + " bytes");
    return outBuf.position();
}

22

ответ дан Joachim Sauer 27 November 2019 в 20:17

Кодировка UTF-8 имеет аккуратную черту, которая позволяет Вам видеть, где в установленном на байт Вы.

проверяют поток в символьном пределе, который Вы хотите.

, Если его высокий бит 0, это - однобайтовый символ, просто замените его 0, и Вы в порядке.
, Если его высокий бит равняется 1 и так является следующим битом, тогда Вы в начале многобайтового символа, поэтому просто установите тот байт на 0, и Вы хороши.
, Если высокий бит равняется 1, но следующий бит 0, то Вы посреди символа, перемещение назад вдоль буфера, пока Вы не поражаете байт, который имеет 2 или больше 1 с в высоких битах, и замените тот байт 0.

Пример: Если Ваш поток: 31 33 31 C1 A3 32 33 00, можно сделать строку 1, 2, 3, 5, 6, или 7 байтов длиной, но не 4, поскольку это поместило бы 0 после C1, который является запуском многобайтового символа.

9

ответ дан billjamesdev 27 November 2019 в 20:17

Можно вычислить число байтов, не делая никакого преобразования.

foreach character in the Java string
  if 0 <= character <= 0x7f
     count += 1
  else if 0x80 <= character <= 0x7ff
     count += 2
  else if 0x800 <= character <= 0xd7ff // excluding the surrogate area
     count += 3
  else if 0xdc00 <= character <= 0xffff
     count += 3
  else { // surrogate, a bit more complicated
     count += 4
     skip one extra character in the input stream
  }

необходимо было бы обнаружить суррогатные пары (D800-DBFF и U+DC00вЂ “U+DFFF) и считать 4 байта для каждой допустимой суррогатной пары. Если Вы получаете первое значение в первом диапазоне и второе во втором диапазоне, это - все хорошо, пропустите их и добавьте 4. Но в противном случае тогда это - недопустимая суррогатная пара. Я не уверен, как соглашения о Java с этим, но Ваш алгоритм должны будут сделать правильный подсчет в том (маловероятном) случае.

3

ответ дан user19050 27 November 2019 в 20:17

Другие вопросы по тегам:

java string unicode utf-8 truncate

Похожие вопросы:

score 24 · Accepted Answer

Вот простой цикл, который рассчитывает, как большой представление UTF-8 будет и усекает, когда это превышено:

public static String truncateWhenUTF8(String s, int maxBytes) {
    int b = 0;
    for (int i = 0; i < s.length(); i++) {
        char c = s.charAt(i);

        // ranges from http://en.wikipedia.org/wiki/UTF-8
        int skip = 0;
        int more;
        if (c <= 0x007f) {
            more = 1;
        }
        else if (c <= 0x07FF) {
            more = 2;
        } else if (c <= 0xd7ff) {
            more = 3;
        } else if (c <= 0xDFFF) {
            // surrogate area, consume next char as well
            more = 4;
            skip = 1;
        } else {
            more = 3;
        }

        if (b + more > maxBytes) {
            return s.substring(0, i);
        }
        b += more;
        i += skip;
    }
    return s;
}

Это делает дескриптор суррогатные пары , которые появляются во входной строке. Кодер Java UTF-8 (правильно) производит суррогатные пары как единственную 4-байтовую последовательность вместо двух 3-байтовых последовательностей, таким образом truncateWhenUTF8() возвратит самую длинную усеченную строку, это может. При игнорировании суррогатных пар в реализации тогда, усеченные строки могут быть закорочены, чем они должны были быть.

я не сделал большого тестирования на том коде, но здесь являюсь некоторыми предварительными тестами:

private static void test(String s, int maxBytes, int expectedBytes) {
    String result = truncateWhenUTF8(s, maxBytes);
    byte[] utf8 = result.getBytes(Charset.forName("UTF-8"));
    if (utf8.length > maxBytes) {
        System.out.println("BAD: our truncation of " + s + " was too big");
    }
    if (utf8.length != expectedBytes) {
        System.out.println("BAD: expected " + expectedBytes + " got " + utf8.length);
    }
    System.out.println(s + " truncated to " + result);
}

public static void main(String[] args) {
    test("abcd", 0, 0);
    test("abcd", 1, 1);
    test("abcd", 2, 2);
    test("abcd", 3, 3);
    test("abcd", 4, 4);
    test("abcd", 5, 4);

    test("a\u0080b", 0, 0);
    test("a\u0080b", 1, 1);
    test("a\u0080b", 2, 1);
    test("a\u0080b", 3, 3);
    test("a\u0080b", 4, 4);
    test("a\u0080b", 5, 4);

    test("a\u0800b", 0, 0);
    test("a\u0800b", 1, 1);
    test("a\u0800b", 2, 1);
    test("a\u0800b", 3, 1);
    test("a\u0800b", 4, 4);
    test("a\u0800b", 5, 5);
    test("a\u0800b", 6, 5);

    // surrogate pairs
    test("\uD834\uDD1E", 0, 0);
    test("\uD834\uDD1E", 1, 0);
    test("\uD834\uDD1E", 2, 0);
    test("\uD834\uDD1E", 3, 0);
    test("\uD834\uDD1E", 4, 4);
    test("\uD834\uDD1E", 5, 4);

}

Обновленный Измененный пример кода, это теперь обрабатывает суррогатные пары.