美文网首页
字符集和字符编码以及编码转换

字符集和字符编码以及编码转换

作者: sheen口开河 | 来源:发表于2018-09-02 20:04 被阅读117次

    文档是用的幕布编辑的,不是标准markdown,因此只有层次结构,懒得转换了,见谅~
    by the way,推荐一下:幕布,极其适合速记、思维导图、读书笔记、会议记录、工作内容梳理等。链接:https://mubu.com

    • 字符、字符集和二进制

      • 计算机只能识别二进制数据,就是01串,每个数字是一个二进制位

      • 字符是便于人理解和识别的符号,比如一个字母,一个逗号,一个数字

      • 字符编码就是指,一个字符应该由几个二进制位表示,比如在ASCII字符集里,大写字母A就是用01000001表示,也就是十进制的32

      • 字符集是在一套编码规则下的字符集合,包含两个部分

        • 规定一个字符由几个二进制位组成,一般是按照字节为单位

        比如上文的大写字母A,在ASCII中规定,一个字符由一个字节(也就是8个二进制位)表示,这是编码规则

        • 指定映射关系,每个字符的对应的字节内容是什么

        比如上文的大写字符A,在ASCII中规定,一个字符由一个字节表示,且01000001映射了字符A,所以根据这套编码和映射规则,大致可以理解为,当计算机读到了01000001时,就把它翻译成A

      • 由于字符集必须以某种编码规则进行映射,所以通常字符编码和字符集形成对应关系

    • 常用字符编码标准/字符集

      • ASCII

        • 描述:英文字符编码,因此其形成的字符集是英文字符集
        • 编码规则:每个字符由一个字节表示
        • 映射关系:ASCII编码表,一共128个字符编码。后续ISO又陆续制定了适应别的国家和的确的字符编码表
      • ANSI

        一些字符编码标准的统称,比如GB2312、BIG5、JIS等,这些都是适用于特定国家和地区的编码标准及相应的字符集,这些都是ANSI标准​

        • ANSI字符集空间比ASCII要大很多,通常一个字符需要多个字节来表示
        • ANSI编码一般会兼容ASCII标准
        • 每种ANSI编码标准值规定自己国家的字符编码规则和映射关系
      • Unicode/UCS和UTF

        由于 ANSI 码的第一个特点:各个国家或地区在编制自己的 ANSI 码时并未考虑到其他国家或地区的 ANSI 码,导致编码空间有重叠,比如:汉字'中'的编码是[0xD6,0xD0],这个编码在其他国家的 ANSI 编码标准中则不一定就是该编码了。于是,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。这样一来当在不同ANSI编码标准之间进行信息交换和显示的时候,乱码就不可避免了。

        • Unicode是通用字符编码集,它为美中与原中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

        • UCS是也是通用字符集,是ISO和Unicode协会统一了两家的标准之后的产物,是所有其他字符集标准的一个超集,也可以理解为Unicode和UCS互相兼容--因为世界上不需要两套统一的字符集。

        • UTF是Unicode的实现方式,称为Unicode转换格式,常见的友UTF-16/UTF-32/UTF-8等。

          Unicode/UCS只是一个字符集,他只规定了符号的二进制代码,却没有规定这个二进制代码如何存储。比如汉字“严”的Unicode码是4E25,转成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。对于其他的更大的符号,可能需要3个字节或者4个字节,甚至更多。 ​​

          • UTF-8是最广泛使用的UTF方案,使用可变长度字节来存储Unicode字符。

          比如ASCII字母继续使用1字节存储,重音文字、希腊字母或者西里尔字母等使用2个字节来存储,而常用的汉子就需要使用3个字节来存储,辅助平面字符使用4个字节等。​​​

      • UTF-8

        这里将UTF-8单独拎出来讲一下,因为他实在是太广泛了,而且越来也越成为约定俗成的编码方式​

        • UTF-8是Unicode的一种实现方式,因为Unicode已经规定好了字符的映射关系,也就是说已经规定好了字符表,因此UTF-8主要是解决了如何存储的问题。

        • UTF-8以8位单元对Unicode进行编码,附件中图片为转换规则

          image

          例如汉子的“汉”字,Unicode的编码是6C49,6C49在0800-FFFF之间,因此使用3个字节模板来存储。将6C49写成二进制是0100110001001001,用这个比特流一次代替模板中的x,得到11100110 10110001 10001001,即E6 B1 89​

        • 那么当软件打开一个文件的时候如何识别文本的字符集和编码呢——检测文件头标识或者提示用户选择或者根据一定的规则猜测

    • 字符编码转换-java

      这里总结一下java里无处不见却又很难弄清楚的字符编码转换——头疼的乱码问题

      • 首先我们要明白,在java的世界里,所有字符的存储都是Unicode(UTF-16),因此所有的数据到java里,都会被以这种方式编码

        • 例如读入GBK的编码文件,那么java将读入文件的字节流,并且根据GBK编码规则正确识别每个字符,然后转换成Unicode码存储在内存中。
      • 读取文件原则:如果知道文件的编码格式,在读取的时候,手动指定编码格式,否则会读到乱码

      • 输出文件原则:输出文件的时候,指定编码格式,将以指定的格式进行编码输出

      • 编码转换:new String(src.getBytes(target_Encode),targetEncode),getBytes(target_Encode)的含义是按照指定的编码格式获取字节数组,并且按照指定格式编码成字符串

        参考https://blog.csdn.net/h12kjgj/article/details/73496528

        • 例如GBK编码格式的文件fileA,其内容是“汉子”,那么读取的时候,我们应当指定编码格式为GBK,然后才能读到正确的数据。这时候如果我们需要将其编码格式更改为UTF-8,我们可以直接使用new String(line.getBytes("UTF-8"),"UTF-8")来进行,line是正确读取的内容,其结果是编码好的UTF-8格式的数据。如果我们要输出,那么只要在读取和输出的时候,分别制定相应的编码格式即可。
      • by the way,网上随处可见的new String(src.getBytes(srcEncode),targetEncode)是错误的,在tomcat中可以正确做到,那只是个巧合。可以参见getBytes的API说明:以指定的编码格式获取字节数组,你获取了encodeA的字节,然后以encodeB编码方式来编码,肯定得不到正确的结果

    相关文章

      网友评论

          本文标题:字符集和字符编码以及编码转换

          本文链接:https://www.haomeiwen.com/subject/dtzmwftx.html