Я правильно поддерживаю UTF-8 в своих приложениях PHP?

Question

Я правильно поддерживаю UTF-8 в своих приложениях PHP?

мне обычно нравится иметь двоичные файлы в базе данных потому что:

целостность данных: никакой не имеющий ссылки файл, никакой путь в дб без любого файла не связался
непротиворечивость данных: возьмите дамп базы данных, и это - все. нет "O я забыл к targz этот каталог данных".

40

php unicode utf-8

задан Community 23 May 2017 в 11:46

5 ответов

database / mysql: Если вы используете SET NAMES и, например, php / mysql , вы оставляете mysql_real_escape_string () в неведении об изменении в кодировке символов. Это может привести к неверным результатам. Итак, если вы полагаетесь на escape-функцию, такую как mysql_real_escape_string (потому что вы не используете подготовленные операторы), SET NAMES - неоптимальное решение. Вот почему был введен mysql_set_charset () или почему gentoo применяет патч, который добавляет параметр конфигурации mysql.connect_charset как для php / mysql, так и для php / mysqli.

Обычно клиент не указывает кодировку параметров, которые он отправляет. Если вы ожидаете данные в кодировке utf-8 и обрабатываете их как таковые , могут быть ошибки кодирования (последовательности байтов, недопустимые в utf-8). Таким образом, данные могут отображаться не так, как ожидалось, или синтаксический анализатор может прервать анализ. Но, по крайней мере, пользовательский ввод не может «ускользнуть» и причинить больше вреда, например, во встроенном выражении sql или выводе HTML. Например, возьмите сценарий (сохраненный как iso-8859-1 или utf-8, не имеет значения)

<?php
$s = 'abcxyz';
var_dump(htmlspecialchars($s, ENT_QUOTES, 'utf-8'));
// adding the byte sequence for äöü in iso-8859-1
$s = 'abc'. chr(0xE4) . chr(0xF6) . chr(0xFC). 'xyz';
var_dump(htmlspecialchars($s, ENT_QUOTES, 'utf-8'));

выводит

string(6) "abcxyz"
string(0) ""

E4F6FC не является допустимой последовательностью байтов utf-8, поэтому htmlspecialchars возвращает пустую строку. Другие функции могут вернуть? или другой "особенный" характер. Но, по крайней мере, они не будут «ошибочно принимать» символ за злонамеренный управляющий символ - пока все они будут придерживаться «правильной» кодировки (в данном случае utf-8).

accept-charset не гарантирует, что вы получите данные только с этой кодировкой. Насколько вам известно, клиент, возможно, даже не "использовал" / не проанализировал ваш html-документ, содержащий элемент формы. Это может помочь, и нет причин, по которым вы не должны устанавливать этот атрибут. Но это ненадежно.

Насколько вам известно, клиент, возможно, даже не "использовал" / не проанализировал ваш html-документ, содержащий элемент формы. Это может помочь, и нет причин, по которым вы не должны устанавливать этот атрибут. Но это ненадежно.

3

ответ дан 27 November 2019 в 01:56

Большая часть того, что вы делаете сейчас, должно быть правильным.

Некоторые примечания: любое сопоставление utf _ * в MySQL будет правильно хранить ваши данные как UTF- 8, единственная разница между ними - это сортировка (алфавитный порядок), применяемая при сортировке.

Вы можете указать Apache и PHP, чтобы они выполнили правильную настройку заголовков кодировки AddDefaultCharset utf-8 в httpd.conf /. htaccess и default_charset = "utf-8" в php.ini соответственно.

Вы можете указать расширению mbstring позаботиться о строковых функциях. Это работает для меня:

mbstring.internal_encoding=utf-8
mbstring.http_output=UTF-8
mbstring.encoding_translation=On
mbstring.func_overload=6

(это оставляет функцию mail () нетронутой - я обнаружил, что установка ее на 7 испортила мои заголовки сообщений)

Для преобразования кодировки посмотрите https://sourceforge.net/projects/phputf8/.

PHP не делает ' меня вообще не заботит, что находится в переменной, она просто сохраняет и извлекает ее содержимое вслепую.

Вы получите неожиданные результаты, если объявите один mbstring.internal_encoding и передадите в функцию mb_ * строки в другая кодировка. В любом случае вы можете безопасно отправлять ASCII в функции utf-8.

Если вы беспокоитесь о том, что кто-то намеренно публикует неправильно закодированный материал, я думаю, вам следует подумать о HTML Purifie r для фильтрации данных GET / POST перед обработкой .

Accept-charset всегда присутствует в спецификациях, но его реальная поддержка в браузерах более или менее равна нулю. Браузер обычно использует кодировку страницы, содержащей форму.