前言
计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码";反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码。
出现乱码问题,一般是由于编码字符集与解码字符集不一致导致。
问题
新应用发布到新的服务器中,出现日志文件中文乱码的问题。见下图中的nickName:
日志中文乱码过程
- 查看文件的解码字符集。将日志download到自己电脑上使用notepad或者其他文本编辑器查看文件编码,发现文件的编码格式为utf-8,即解码字符集为utf-8。
2.查看文件的编码字符集。 通过下面的Java代码获取java虚拟机使用的字符集
String charsetName = Charset.defaultCharset().name();
发现Java虚拟机使用的字符集为US-ASCII。非utf-8。编码字符集与解码字符集不一致导致。
解决方法
在Java应用程序启动时添加启动参数-Dfile.encoding=utf-8即可,如是tomcat,在tomcat的配置文件tomcat.conf中的变量JAVA_OPTS添加-Dfile.encoding=utf-8即可。
网友评论