Как определить кодирование текста?

Используйте подготовленные операторы и параметризованные запросы. Это операторы SQL, которые отправляются и анализируются сервером базы данных отдельно от любых параметров. Таким образом, злоумышленник не может внедрить вредоносный SQL.

У вас в основном есть два варианта:

  1. Использование PDO (для любой поддерживаемый драйвер базы данных):
    $stmt = $pdo->prepare('SELECT * FROM employees WHERE name = :name');
    
    $stmt->execute(array('name' => $name));
    
    foreach ($stmt as $row) {
        // do something with $row
    }
    
  2. Использование MySQLi (для MySQL):
    $stmt = $dbConnection->prepare('SELECT * FROM employees WHERE name = ?');
    $stmt->bind_param('s', $name); // 's' specifies the variable type => 'string'
    
    $stmt->execute();
    
    $result = $stmt->get_result();
    while ($row = $result->fetch_assoc()) {
        // do something with $row
    }
    

Если вы подключаетесь к база данных, отличная от MySQL, есть вторая опция, зависящая от драйвера, к которой вы можете обратиться (например, pg_prepare() и pg_execute() для PostgreSQL). PDO является универсальной опцией.

Правильная настройка соединения

Обратите внимание, что при использовании PDO для доступа к базе данных MySQL real подготовленные операторы не используются по умолчанию. Чтобы исправить это, вы должны отключить эмуляцию подготовленных операторов. Пример создания соединения с использованием PDO:

$dbConnection = new PDO('mysql:dbname=dbtest;host=127.0.0.1;charset=utf8', 'user', 'pass');

$dbConnection->setAttribute(PDO::ATTR_EMULATE_PREPARES, false);
$dbConnection->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);

В приведенном выше примере режим ошибки не является строго необходимым, но рекомендуется добавить его. Таким образом, сценарий не остановится с Fatal Error, когда что-то пойдет не так. И это дает разработчику шанс catch получить любую ошибку (ы), которые являются throw n как PDOException s.

Однако обязательной является первая setAttribute() строка, которая сообщает PDO об отключении эмулируемых подготовленных операторов и использует подготовленные операторы real . Это гарантирует, что оператор и значения не будут разбираться с PHP перед отправкой на сервер MySQL (предоставление возможности злоумышленнику возможности внедрить вредоносный SQL).

Хотя вы можете установить charset в варианты конструктора, важно отметить, что «более старые» версии PHP (& lt; 5.3.6) молча игнорировали параметр charset в DSN.

Объяснение

Случается, что оператор SQL, который вы передаете prepare, анализируется и компилируется сервером базы данных. Указав параметры (либо ?, либо именованный параметр, такой как :name в примере выше), вы указываете механизм базы данных, в который вы хотите включить фильтр. Затем, когда вы вызываете execute, подготовленный оператор объединяется со значениями параметров, которые вы указываете.

Важно то, что значения параметров объединены с компилируемым оператором, а не с строкой SQL. SQL-инъекция работает, обманывая сценарий, включая вредоносные строки, когда он создает SQL для отправки в базу данных. Поэтому, отправляя фактический SQL отдельно от параметров, вы ограничиваете риск того, что закончите то, чего не намеревались. Любые параметры, которые вы отправляете при использовании подготовленного оператора, будут обрабатываться только как строки (хотя механизм базы данных может сделать некоторую оптимизацию, поэтому, конечно, параметры могут также оказаться как числа). В приведенном выше примере, если переменная $name содержит 'Sarah'; DELETE FROM employees, результатом будет просто поиск строки "'Sarah'; DELETE FROM employees", и вы не получите пустую таблицу .

Еще одно преимущество использования подготовленных операторов состоит в том, что если вы выполняете один и тот же оператор много раз в одном сеансе, он будет анализироваться и компилироваться один раз, давая вам некоторую прибыль от скорости.

О, и поскольку вы спросили, как это сделать для вставки, вот пример (с использованием PDO):

$preparedStatement = $db->prepare('INSERT INTO table (column) VALUES (:column)');

$preparedStatement->execute(array('column' => $unsafeValue));

Могут ли подготовленные операторы использоваться для динамических запросов?

Пока вы все еще можете использовать подготовленные операторы для параметров запроса, сама структура самого динамического запроса не может быть параметризована, и некоторые функции запроса не могут быть параметризованы.

Для этих конкретных сценариев лучше всего использовать фильтр белого списка, который ограничивает возможные значения.

// Value whitelist
// $dir can only be 'DESC' otherwise it will be 'ASC'
if (empty($dir) || $dir !== 'DESC') {
   $dir = 'ASC';
}

202
задан martineau 11 February 2019 в 07:57
поделиться

3 ответа

Правильно обнаружение всех случаев кодирования невозможно .

(От chardet FAQ:)

Однако некоторая кодировка оптимизирована для определенных языков, и языки не случайны. Некоторые последовательности символов открываются все время, в то время как другие последовательности не имеют никакого смысла. Человек, быстрый на английском языке, который открывает газету и находит “txzqJv 2! dasd0a QqdKjvz” немедленно распознает, что это не является английским (даже при том, что он составлен полностью английских букв). Путем изучения большого количества “typical” текста компьютерный алгоритм может моделировать этот вид беглости и высказать образованное предположение о языке текста.

существует библиотека chardet , которая использует то исследование, чтобы попытаться обнаружить кодирование. chardet является портом кода автоматического обнаружения в Mozilla.

можно также использовать UnicodeDammit. Это попробует следующие методы:

  • кодирование, обнаруженное в самом документе: например, в определении XML или (для документов HTML) http-equiv Метатег. Если Красивый Суп находит этот вид кодирования в рамках документа, это анализирует документ снова с начала и дает новое кодирование попытки. Единственное исключение - то, при явном определении кодирования, и что кодирование на самом деле работало: тогда это проигнорирует любое кодирование, это находит в документе.
  • кодирование, сниффинговое путем рассмотрения первых нескольких байтов файла. Если кодирование будет обнаружено на данном этапе, это будет один из UTF -* кодировка, EBCDIC или ASCII.
  • кодирование, сниффинговое библиотека chardet , если Вам установили его.
  • UTF-8
  • Windows 1252
203
ответ дан davidism 23 November 2019 в 05:00
поделиться

В принципе, невозможно определить кодирование текстового файла в общем случае. Так не, нет никакой стандартной библиотеки Python, чтобы сделать это для Вас.

, Если у Вас есть более специальные знания о текстовом файле (например, что это - XML), могли бы быть библиотечные функции.

0
ответ дан Martin v. Löwis 23 November 2019 в 05:00
поделиться

Если Вы знаете некоторое содержание файла, можно попытаться декодировать его с несколькими кодированием и видеть, который отсутствует. В целом нет никакого пути, так как текстовый файл является текстовым файлом, и те глупы;)

0
ответ дан Martin Thurau 23 November 2019 в 05:00
поделиться
Другие вопросы по тегам:

Похожие вопросы: