字符集和字符编码以及编码转换

作者: sheen口开河 | 来源:发表于2018-09-02 20:04 被阅读117次

文档是用的幕布编辑的，不是标准markdown，因此只有层次结构，懒得转换了，见谅~
by the way，推荐一下：幕布，极其适合速记、思维导图、读书笔记、会议记录、工作内容梳理等。链接:https://mubu.com

字符、字符集和二进制
- 计算机只能识别二进制数据，就是01串，每个数字是一个二进制位
- 字符是便于人理解和识别的符号，比如一个字母，一个逗号，一个数字
- 字符编码就是指，一个字符应该由几个二进制位表示，比如在ASCII字符集里，大写字母A就是用01000001表示，也就是十进制的32
- 字符集是在一套编码规则下的字符集合，包含两个部分
  - 规定一个字符由几个二进制位组成，一般是按照字节为单位
  比如上文的大写字母A，在ASCII中规定，一个字符由一个字节（也就是8个二进制位）表示，这是编码规则
  - 指定映射关系，每个字符的对应的字节内容是什么
  比如上文的大写字符A，在ASCII中规定，一个字符由一个字节表示，且01000001映射了字符A，所以根据这套编码和映射规则，大致可以理解为，当计算机读到了01000001时，就把它翻译成A
- 由于字符集必须以某种编码规则进行映射，所以通常字符编码和字符集形成对应关系
常用字符编码标准/字符集
- ASCII
  - 描述：英文字符编码，因此其形成的字符集是英文字符集
  - 编码规则：每个字符由一个字节表示
  - 映射关系：ASCII编码表，一共128个字符编码。后续ISO又陆续制定了适应别的国家和的确的字符编码表
- ANSI
  
  一些字符编码标准的统称，比如GB2312、BIG5、JIS等，这些都是适用于特定国家和地区的编码标准及相应的字符集，这些都是ANSI标准
  - ANSI字符集空间比ASCII要大很多，通常一个字符需要多个字节来表示
  - ANSI编码一般会兼容ASCII标准
  - 每种ANSI编码标准值规定自己国家的字符编码规则和映射关系
- Unicode/UCS和UTF
  
  由于 ANSI 码的第一个特点：各个国家或地区在编制自己的 ANSI 码时并未考虑到其他国家或地区的 ANSI 码，导致编码空间有重叠，比如：汉字'中'的编码是[0xD6，0xD0]，这个编码在其他国家的 ANSI 编码标准中则不一定就是该编码了。于是，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。这样一来当在不同ANSI编码标准之间进行信息交换和显示的时候，乱码就不可避免了。
  - Unicode是通用字符编码集，它为美中与原中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
  - UCS是也是通用字符集，是ISO和Unicode协会统一了两家的标准之后的产物，是所有其他字符集标准的一个超集，也可以理解为Unicode和UCS互相兼容--因为世界上不需要两套统一的字符集。
  - UTF是Unicode的实现方式，称为Unicode转换格式，常见的友UTF-16/UTF-32/UTF-8等。
    
    Unicode/UCS只是一个字符集，他只规定了符号的二进制代码，却没有规定这个二进制代码如何存储。比如汉字“严”的Unicode码是4E25，转成二进制数足足有15位（100111000100101），也就是说这个符号的表示至少需要2个字节。对于其他的更大的符号，可能需要3个字节或者4个字节，甚至更多。
    - UTF-8是最广泛使用的UTF方案，使用可变长度字节来存储Unicode字符。
    比如ASCII字母继续使用1字节存储，重音文字、希腊字母或者西里尔字母等使用2个字节来存储，而常用的汉子就需要使用3个字节来存储，辅助平面字符使用4个字节等。
- UTF-8
  
  这里将UTF-8单独拎出来讲一下，因为他实在是太广泛了，而且越来也越成为约定俗成的编码方式
  - UTF-8是Unicode的一种实现方式，因为Unicode已经规定好了字符的映射关系，也就是说已经规定好了字符表，因此UTF-8主要是解决了如何存储的问题。
  - UTF-8以8位单元对Unicode进行编码，附件中图片为转换规则
    image
    
    例如汉子的“汉”字，Unicode的编码是6C49，6C49在0800-FFFF之间，因此使用3个字节模板来存储。将6C49写成二进制是0100110001001001，用这个比特流一次代替模板中的x，得到11100110 10110001 10001001，即E6 B1 89
  - 那么当软件打开一个文件的时候如何识别文本的字符集和编码呢——检测文件头标识或者提示用户选择或者根据一定的规则猜测
字符编码转换-java

这里总结一下java里无处不见却又很难弄清楚的字符编码转换——头疼的乱码问题
- 首先我们要明白，在java的世界里，所有字符的存储都是Unicode（UTF-16），因此所有的数据到java里，都会被以这种方式编码
  - 例如读入GBK的编码文件，那么java将读入文件的字节流，并且根据GBK编码规则正确识别每个字符，然后转换成Unicode码存储在内存中。
- 读取文件原则：如果知道文件的编码格式，在读取的时候，手动指定编码格式，否则会读到乱码
- 输出文件原则：输出文件的时候，指定编码格式，将以指定的格式进行编码输出
- 编码转换：new String(src.getBytes(target_Encode),targetEncode)，getBytes(target_Encode)的含义是按照指定的编码格式获取字节数组，并且按照指定格式编码成字符串
  
  参考https://blog.csdn.net/h12kjgj/article/details/73496528
  - 例如GBK编码格式的文件fileA，其内容是“汉子”，那么读取的时候，我们应当指定编码格式为GBK，然后才能读到正确的数据。这时候如果我们需要将其编码格式更改为UTF-8，我们可以直接使用new String(line.getBytes("UTF-8"),"UTF-8")来进行，line是正确读取的内容，其结果是编码好的UTF-8格式的数据。如果我们要输出，那么只要在读取和输出的时候，分别制定相应的编码格式即可。
- by the way，网上随处可见的new String(src.getBytes(srcEncode),targetEncode)是错误的，在tomcat中可以正确做到，那只是个巧合。可以参见getBytes的API说明：以指定的编码格式获取字节数组，你获取了encodeA的字节，然后以encodeB编码方式来编码，肯定得不到正确的结果

网友评论

本文标题：字符集和字符编码以及编码转换

本文链接：https://www.haomeiwen.com/subject/dtzmwftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

字符集和字符编码以及编码转换

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读