Кодирование проблемы (UTF-8) в PHP

Question

Кодирование проблемы (UTF-8) в PHP

Быстрая сводка какой использование компиляторов Microsoft для различных битов ненаходящейся в собственности/неинициализированной памяти, когда скомпилировано для режима отладки (поддержка может варьироваться версией компилятора):

Value     Name           Description 
------   --------        -------------------------
0xCD     Clean Memory    Allocated memory via malloc or new but never 
                         written by the application. 

0xDD     Dead Memory     Memory that has been released with delete or free. 
                         Used to detect writing through dangling pointers. 

0xED or  Aligned Fence   'No man's land' for aligned allocations. Using a 
0xBD                     different value here than 0xFD allows the runtime
                         to detect not only writing outside the allocation,
                         but to also detect mixing alignment-specific
                         allocation/deallocation routines with the regular
                         ones.

0xFD     Fence Memory    Also known as "no mans land." This is used to wrap 
                         the allocated memory (surrounding it with a fence) 
                         and is used to detect indexing arrays out of 
                         bounds or other accesses (especially writes) past
                         the end (or start) of an allocated block.

0xFD or  Buffer slack    Used to fill slack space in some memory buffers 
0xFE                     (unused parts of `std::string` or the user buffer 
                         passed to `fread()`). 0xFD is used in VS 2005 (maybe 
                         some prior versions, too), 0xFE is used in VS 2008 
                         and later.

0xCC                     When the code is compiled with the /GZ option,
                         uninitialized variables are automatically assigned 
                         to this value (at byte level). 


// the following magic values are done by the OS, not the C runtime:

0xAB  (Allocated Block?) Memory allocated by LocalAlloc(). 

0xBAADF00D Bad Food      Memory allocated by LocalAlloc() with LMEM_FIXED,but 
                         not yet written to. 

0xFEEEFEEE               OS fill heap memory, which was marked for usage, 
                         but wasn't allocated by HeapAlloc() or LocalAlloc(). 
                         Or that memory just has been freed by HeapFree().

Правовая оговорка: таблица из некоторых примечаний, у меня есть ложь вокруг - они не могут быть на 100% корректными (или когерентными).

Многие из этих значений определяются в vc/crt/src/dbgheap.c:

/*
 * The following values are non-zero, constant, odd, large, and atypical
 *      Non-zero values help find bugs assuming zero filled data.
 *      Constant values are good so that memory filling is deterministic
 *          (to help make bugs reproducable).  Of course it is bad if
 *          the constant filling of weird values masks a bug.
 *      Mathematically odd numbers are good for finding bugs assuming a cleared
 *          lower bit.
 *      Large numbers (byte values at least) are less typical, and are good
 *          at finding bad addresses.
 *      Atypical values (i.e. not too often) are good since they typically
 *          cause early detection in code.
 *      For the case of no-man's land and free blocks, if you store to any
 *          of these locations, the memory integrity checker will detect it.
 *
 *      _bAlignLandFill has been changed from 0xBD to 0xED, to ensure that
 *      4 bytes of that (0xEDEDEDED) would give an inaccessible address under 3gb.
 */

static unsigned char _bNoMansLandFill = 0xFD;   /* fill no-man's land with this */
static unsigned char _bAlignLandFill  = 0xED;   /* fill no-man's land for aligned routines */
static unsigned char _bDeadLandFill   = 0xDD;   /* fill free objects with this */
static unsigned char _bCleanLandFill  = 0xCD;   /* fill new objects with this */

существуют также несколько раз, где время выполнения отладки заполнит буферы (или части буферов) с известным значением, например, 'слабое' пространство в std::string, выделение или буфер передали fread(). Те случаи используют значение, учитывая имя _SECURECRT_FILL_BUFFER_PATTERN (определенный в crtdefs.h). Я не уверен точно, когда это было представлено, но это был во времени выполнения отладки, по крайней мере, VS 2005 (VC ++ 8).

Первоначально значение, используемое для заполнения этих буферов, было 0xFD - то же значение, используемое для нейтральной зоны. Однако в VS 2008 (VC ++ 9) значение было изменено на 0xFE. Я принимаю поэтому могли быть ситуации, куда операция заполнения работала бы мимо конца буфера, например, если бы вызывающая сторона передала в размере буфера, который был слишком большим к fread(). В этом случае значение 0xFD не могло бы инициировать обнаружение этого переполнения с тех пор, если бы размер буфера был слишком большим всего один, значение заливки совпало бы со значением нейтральной зоны, используемым для инициализации той канарейки. Никакое изменение в нейтральной зоне не означает, что переполнение не было бы замечено.

, Таким образом, значение заливки было изменено в VS 2008 так, чтобы такой случай изменил канарейку нейтральной зоны, приводящую к обнаружению проблемы временем выполнения.

, Поскольку другие отметили, одно из ключевых свойств этих значений, это - переменная указателя с одним из этих значений, разыменовывается, это приведет к нарушению прав доступа, так как на стандартной 32-разрядной конфигурации Windows, адреса непривилегированного режима не повысятся, чем 0x7fffffff.

5

php encoding utf-8

задан caw 7 September 2009 в 10:16

3 ответа

Знак евро (U + 20AC) кодируется в UTF-8 тремя байтами, а не двумя. Это можно увидеть здесь . Значит, ваша кодировка просто неправильная.

5

ответ дан 18 December 2019 в 08:29

Вы должны всегда устанавливать в редакторе ту же кодировку, которую сгенерированный HTML указывает браузеру использовать. Если HTML-страница предназначена для интерпретации как UTF-8, установите текстовый редактор в UTF-8. PHP совершенно не осведомлен о настройках кодировки редактора, использованного для создания файла; он обрабатывает строки как поток байтов.

Другими словами, пока в файле есть правильные байты, все будет работать. И самый простой способ убедиться, что в файле есть нужные байты, - это установить ту же кодировку, в которой должна находиться веб-страница. Все остальное только усложняет жизнь, чем она должна быть.

Лучшая защита - полностью исключить из кода символы, отличные от ASCII. Вместо этого вы можете извлечь их из базы данных или файла локализации.

2

ответ дан 18 December 2019 в 08:29

Другие вопросы по тегам:

php encoding utf-8

Кодирование проблемы (UTF-8) в PHP

3 ответа

Похожие вопросы: