Как защитить себя от XSS, когда Вы позволяете людям отправлять НЕОБРАБОТАННЫЕ коды для встраивания?

Question

Как защитить себя от XSS, когда Вы позволяете людям отправлять НЕОБРАБОТАННЫЕ коды для встраивания?

Tumblr и другие веб-сайты блоггинга позволяют людям отправлять встроенные коды видео с YouTube и всех видео сетей.

но как они фильтруют только объектный код флэш-памяти и удаляют какой-либо другой HTML или сценарии? и даже у них есть автоматизированный код, который сообщает Вам, что это не действительный видео код.

Это сделано с помощью выражений REGEX? И Есть ли класс PHP, чтобы сделать это?

Спасибо

19

php regex

задан Ryan 27 March 2010 в 22:51

7 ответов

score 25 · Accepted Answer

Вообще говоря, использование регулярных выражений не является хорошим способом работы с HTML : HTML - это недостаточно регулярны для регулярных выражений: в стандартах разрешено слишком много вариаций ... И браузеры даже принимают недопустимый HTML!

В PHP, поскольку ваш вопрос помечен как php , отличным решением для фильтрации пользовательского ввода является инструмент HTMLPurifier .

Вот пара интересных вещей:

Он позволяет вам указать , какие конкретные теги разрешены
Для каждого тега вы можете определить какие конкретные атрибуты разрешены

По сути, идея состоит в том, чтобы сохранить только то, что вы указали (белый список) , вместо того, чтобы пытаться удалить плохие вещи с помощью черного списка (который никогда не будет полностью полным) .

И если вы укажете только список тегов и атрибутов, которые не могут причинить вреда, будут сохранены только они - и риски инъекций значительно снизятся.

Цитата с домашней страницы HTMLPurifier:

HTML Purifier - это соответствующая стандартам библиотека фильтров HTML, написанная на PHP.
HTML Purifier не только удалит весь вредоносный код (более известный как XSS) с помощью тщательно проверенного, безопасного, но разрешающего белого списка, но и { {1}} также обеспечит соответствие ваших документов стандартам, что возможно только при всестороннем знании спецификаций W3C.

Да, еще одна замечательная вещь заключается в том, что код, который вы получаете в качестве вывода, действителен .

Конечно, это позволит вам очистить / отфильтровать / очистить ввод HTML; он не позволит вам подтвердить, что URL-адрес, используемый пользователем, является как:

правильным; т.е. указывает на реальный контент
"ОК", как определено вашим сайтом; например, без наготы, ...

Что касается второго пункта, тут мало что можно сделать: лучшим решением будет либо:

Попросите модератора принять / отклонить содержимое, прежде чем оно будет помещено online
Предоставьте пользователям веб-сайта возможность помечать некоторый контент как неприемлемый, чтобы модератор принимал меры.

В принципе, для проверки самого содержимого видео нет особого выбора, кроме как попросить человека сказать « ок » или « не нормально ».

Что касается первого пункта, тем не менее, есть надежда: некоторые службы, содержащие контент, имеют API , которые вы, возможно, захотите / сможете использовать.

Например, Youtube предоставляет API - см. Руководство разработчика: PHP .

В вашем случае раздел Получение определенной записи о видео выглядит многообещающим: если вы отправляете HTTP-запрос на URL-адрес, который выглядит следующим образом:

http://gdata.youtube.com/feeds/api/videos/videoID

(Замена «videoID» на идентификатор видео, конечно)

Вы получите некоторый канал ATOM, если видео действительное; и «Недействительный идентификатор», если это не так

. Это может помочь вам проверить хотя бы некоторые URL-адреса содержимого - даже если вам придется разработать какой-то конкретный код для каждой возможной службы хостинга содержимого, которая нравится вашим пользователям ...

Теперь, чтобы извлечь идентификатор видео из вашей HTML-строки ... Если вы думаете об использовании регулярного выражения, вы ошибаетесь; -)

Лучшее решение для извлечения части данных из HTML-строки - обычно для:

Как защитить себя от XSS, когда Вы позволяете людям отправлять НЕОБРАБОТАННЫЕ коды для встраивания?

7 ответов

Похожие вопросы: