目前UTF-8 字符集比较可靠
但是如果服务器在响应的时候,没有对Content-type:text/heml;charset=utf-8 做强制制定,会导致安全风险,因为很有可能在某些字符集下会执行特定script语句。
例如:
<?php header("Content-Type: text/html;charset=GBK");?>
<script>
a="<?php echo $_GET['x'];?>"
</script>
如果magic_quote_gpc=On,此时绕过方法是使用GBK编码的高低字节组合方式来绕过对双引号的" 转义。(GBK高字节范围0x81-0xFE 低字节范围 0x40-0x7e 和 0x80-0xFE)
提交方法 1%81”;alert(1)// 此时[0x81]是高字节方位,则与转义后的\(0x5c) 低字节位组合,于是在GBK编码方式下,将\去掉。
有一些跨站是不需要输入尖括号的
<IMG SRC=jAvascript:alert('test2')>
<a href="javascript:eval(String.fromCharCode(97,108,101,114,116,40,39,88,83,83,39,41))">
所以这种情况下,需要注意对一些特殊符号的解析。解析方式是对编码的顺序进行确认,例如HTML的encode,javascript 的encode, URL的encode,以及CSS的encode。
注意浏览器渲染顺序,在程序encode 过滤的时候与浏览器渲染顺序相反
如:
<a ID="test" onclick="alert('test')" >test's link</a>
浏览器解析顺序是
<a ----- HTML
onclick ----- Javascript
那么过滤顺序则是 先将用户输入的参数 以 javascript encode 过滤,再将参数以 html 参数过滤。所以,对用户提交的参数不仅仅需要编码,而且也要注意编码顺序
参考
关于UTF gb2312 编码之类的总结
http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html
老外关于utf字符集研究和吐槽
http://www.joelonsoftware.com/articles/Unicode.html
该问题展示了如果需要给其他国家用户访问,在避免跨站上面的方法
http://stackoverflow.com/questions/804969/utf-8-characters-that-arent-xss-vulnerabilities
该文档暂时了利用其他非utf编码来进行跨站的方法
http://zaynar.co.uk/docs/charset-encoding-xss.html
解释了为什么统一utf8编码技术会减少跨站风险
http://security.stackexchange.com/questions/35741/xss-via-unicode
XSS防范技术汇总
http://www.xssed.com/xssinfo#Avoiding_XSS_vulnerabilities
Unicode 绕过xss
https://barracudalabs.com/2009/06/unicode-encoding-for-bypassing-xss-filters/
《web前端黑客技术》
网友评论