Вот чистая, понятная функция JavaScript. Он будет избегать текста, такого как «несколько & lt; many», в «несколько & amp; lt; many».
function escapeHtmlEntities (str) {
if (typeof jQuery !== 'undefined') {
// Create an empty div to use as a container,
// then put the raw text in and get the HTML
// equivalent out.
return jQuery('<div/>').text(str).html();
}
// No jQuery, so use string replace.
return str
.replace(/&/g, '&')
.replace(/>/g, '>')
.replace(/</g, '<')
.replace(/"/g, '"')
.replace(/'/g, ''');
}
Причина в том, что текст в Unicode должен начинаться с метки порядка байтов (кроме UTF-8, где это не рекомендуется).
из Википедии
Метка порядка байтов (BOM) представляет собой символ Unicode, U + FEFF MARK BYD ORDER MARK (BOM), чье появление в виде магического числа на начало текстового потока ...
blockquote>
...
Спецификация закодирована в той же схеме, что и остальная часть документа ...Это означает, что этот специальный символ (
\uFEFF
) также должен быть закодирован в UTF-8.UTF-8 может кодировать кодовые точки Unicode в один-четыре байта.
- кодовые точки, которые могут быть представлены 7 битами, кодируются одним байтом, старший бит всегда равен нулю
0xxx xxxx
- все остальные кодовые точки кодируются в нескольких байтах в зависимости от количества бит левые установленные биты первого байта представляют количество байтов, используемых для кодирования, например
110x xxxx
означает, что кодирование представлено двумя байтами, байты продолжения всегда начинаются с10xx xxxx
(битыx
могут использоваться для кодовых точек)Кодовые точки в диапазоне [ 119] может быть закодирован одним байтом.
Кодовые точки в диапазонеU+0080 - U+07FF
могут быть закодированы двумя байтами. Кодовые точки в диапазонеU+0800 - U+FFFF
могут кодироваться тремя байтами.Подробное объяснение приведено в Википедии
Для спецификации требуется три байта.
hex FE FF binary 11111110 11111111
кодировать биты в UTF-8
pattern for three byte encoding 1110 xxxx 10xx xxxx 10xx xxxx the bits of the code point 1111 11 1011 11 1111 result 1110 1111 1011 1011 1011 1111 in hex EF BB BF
EF BB BF
звучит уже знакомо. ; -)Последовательность байтов
EF BB BF
- это не что иное, как спецификация, закодированная в UTF-8.Поскольку метка порядка байтов не имеет значения для UTF-8, она не используется в Java.
кодирование символа спецификации как UTF-8
jshell> "\uFEFF".getBytes("UTF-8") $1 ==> byte[3] { -17, -69, -65 } // EF BB BF
Следовательно, когда файл читается, последовательность байтов декодируется в
\uFEFF
.Для кодирования, например UTF-16 добавлена спецификация
jshell> " ".getBytes("UTF-16") $2 ==> byte[4] { -2, -1, 0, 32 } // FE FF + the encoded SPACE