美文网首页Java 杂谈
Java在中文环境中乱码无处不在的原因

Java在中文环境中乱码无处不在的原因

作者: java高级编程中心 | 来源:发表于2019-05-14 19:24 被阅读0次

    Java在中文环境中乱码无处不在,而且出现的时间和位置也包涵广泛,具体的解决方法也是千奇百怪。

    但是如果能理清其中的脉络,理解字符处 理的过程,对于解决问题很有指导意义,不至于解决了问题也不知道为什么。

    其实,原因不外乎出在String输入时和输出时。

    首先,Java中的任何String都是以UNICODE格式存在的。

    很多人因为在GBK环境中使用String,会误以为String是GBK格式,实际上Java的String类中并没有存储CharSet信息的字段, 所有String中的字符只会以UNICODE的2字节形式存在。

    String在构造时会逐一把字符按指定编码(默认值为系统编码GBK),转换为UNICODE字符,存入一个Char(无符号16位)数组中。

    如:

    new String(bytes,"gbk");

    并不是说,生成一个GBK编码的字符串,而是按GBK逐一辨认字节数组bytes中的字符转化为UNICODE。

    假设,bytes本是按GB编码的,构造方法在发现一个高位为0的byte作为ascii字符处理,高位为1和后面的一个byte合成中文字符, 再转换编码。

    可以看出,在这个过程中,编码选择错误会导致程序按错误方法辨认bytes,乱码出现了。

    在这里产生的乱码,很多时候还可以通过.getByte()方法修复,还没有后面的严重。

    如:

    "中".getBytes("iso-8859-1");

    因为iso-8859-1中没有中文,所以"中"的值被替换成63,显示'?',无法判断以前是什么值。

    所以如下String将被破坏掉:

    new String("中文".getBytes("iso-8859-1"),"iso-8859-1");

    如果目标编码方式支持中文,不会损坏String:

    new String("中文".getBytes("utf-8"),"utf-8");

    Java在显示字符时,还需要进行一次转换,把UNICODE字符转换成用于显示的字符编码形式。

    很多时候,这个过程是自动的,会按系统的默认编码(一般是GBK)转换String。

    如果和页面编码不一样,会出现乱码,虽然在Java的程序中只有一种编码,输出却可以有不同的编码。

    有时候,我们需要用 iso-8859-1格式分解String的中文,以便在不支持中文的系统中存储:

    new String("中文".getBytes("GBK"),"iso-8859-1");

    先通过GBK等支持中文的编码方式分解为byte数组,再做为iso-8859-1字符组成字符串,避免了被替换为Char(63)。

    =========================================================================

    示例程序

    public static void main(String[] args)

    {

    String str = "中国";

    printBytes("中国的UNICODE编码:", str.getBytes(Charset.forName("unicode")));

    printBytes("中国的GBK编码:", str.getBytes(Charset.forName("GBK")));

    printBytes("中国的UTF-8编码:", str.getBytes(Charset.forName("UTF-8")));

    }

    public static void printBytes(String title, byte[] data)

    {

    System.out.println(title);

    for (byte b : data)

    {

    System.out.print("0x" + toHexString(b) + " ");

    }

    System.out.println();

    }

    public static String toHexString(byte value)

    {

    String tmp = Integer.toHexString(value & 0xFF);

    if (tmp.length() == 1)

    {

    tmp = "0" + tmp;

    }

    return tmp.toUpperCase();

    }

    上例的输出结果为:

    中国的UNICODE编码:

    0xFE 0xFF 0x4E 0x2D 0x56 0xFD

    中国的GBK编码:

    0xD6 0xD0 0xB9 0xFA

    中国的UTF-8编码:

    0xE4 0xB8 0xAD 0xE5 0x9B 0xBD

    其实做为一个开发者,有一个学习的氛围跟一个交流圈子特别重要这里我推荐一个Java交流群664389243,不管你是小白还是大牛欢迎入驻,大家一起交流成长。

    相关文章

      网友评论

        本文标题:Java在中文环境中乱码无处不在的原因

        本文链接:https://www.haomeiwen.com/subject/ceweaqtx.html