字符编码

作者: 魔女小姐的猫 | 来源:发表于2020-06-29 07:44 被阅读0次

部分知识点
字符编码知识梳理
Python正式课第十三天
字符编码
python 高级方法
Java内存中的文本编码
python 字符编码简述
13.Python之字符编码
笔记-encode与decode
Python基础(二)-字符串和编码

一. 什么是字符编码？

字符编码(英语:Character encoding)也称字集码，是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲)，以便文本在计算机中存储和通过通信网络的传递。

二. 为什么需要编码?

我们知道，所有的信息最终都表示为一个二进制的字符串，每一个二进制位（bit）有0和1两种状态。当我们需要把字符'A'存入计算机时，应该对应哪种状态呢，存储时，我们可以将字符'A'用01000010（这个随便编的）二进制字符串表示，存入计算机；读取时，再将01000010还原成字符'A'。那么问题来了，存储时，字符'A'应该对应哪一串二进制数呢，是01000010？或者是10000000 11110101？说白了，就是需要一个规则。这个规则可以将字符映射到唯一一种状态(二进制字符串)，这就是编码。而最早出现的编码规则就是ASCII编码，在ASCII编码规则中，字符'A'既不对应01000010，也不对应1000 0000 11110101，而是对应01000001（不要问为什么，这是规则）。

什么是位： 位表示的是二进制位，一般称为比特，即0或1，是计算机存储的最小单位；
什么是字节：位表示的是二进制位，一般称为比特，即0或1，是计算机存储的最小单位；字节是计算机中数据处理的基本单位；

计算机中以字节为单位存储和解释信息，规定一个字节由八个二进制位构成，即1个字节等于8个比特。

三. 字符编码都有哪些？

1. ASCII

这套编码规则是由美国定制，一共规定了128个字符的编码，比如空格"SPACE"是32（十进制）（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括 32个不能打印出来的控制符号），只占用了一个字节（8 bit）的后面7位，最前面的1位统一规定为0。总共才有128个字符编码，一个字节都没有用完，这好像似乎有点太少了。于是乎，就开始压榨最高位，对其为1时也进行编码，利用最高位进行编码的方式就称为非ASCII编码，如ISO-8859-1编码。

2. ISO-8859-1

这套编码规则由ISO组织制定。是在 ASCII 码基础上又制定了一些标准用来扩展ASCII编码，即 00000000（0） ~ 01111111（127）与ASCII的编码一样，对 10000000（128） ~ 11111111（255）这一段进行了编码，如将字符§编码成 10100111（167）。ISO-8859-1编码也是单字节编码，最多能够表示256个字符。Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。但是，即使能够表示256个字符，对中文而言，还是太少了，一个字节肯定不够，必须用多个字节表示。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用 ISO8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在ISO8859-1编码，以GB2312编码为例，应该是D6D0 CEC4两个字符，使用ISO8859-1编码的时候则将它拆开为4个字节来表示：D6D0 CEC4（事实上，在进行存储的时候，也是以字节为单位进行处理）。而如果是UTF编码，则是6个字节e4 b8 ad e6 96 87。很明显，这种表示方法还需要以另一种编码为基础才能正确显示。 而常见的中文编码方式有GB2312、BIG5、GBK。

3. GB2312

GB2312用两个字节编码，采用分区编码，总共编码的中文个数为6763（3755 + 3008）。这些汉字只是最常用的汉字，已经覆盖中国大陆99.75%的使用频率。但是，还有一些汉字在GB2312中没有被编码，如'镕'字，在GB2312中就没有被编码，这样就导致了问题，随之就出现了主流的GBK编码。在讲解GBK编码之前，我们另外讲解一下BIG5编码。

将区（十进制）转化为十六进制。

将转化的十六进制加上A0，得到GB2312编码的高字节。

将位（十进制）转化为十六进制。

将转化的十六进制加上A0，得到GB2312编码的低字节。

组合区和位，区在高字节，位在低字节。

得到GB2312编码。

4. BIG5

BIG5采用双字节编码，使用两个字节来表示一个字符。高位字节使用了0x81-0xFE，低位字节使用了0x40-0x7E，及0xA1-0xFE。该编码是繁体中文字符集编码标准，共收录13060个中文字，其中有二字为重复编码，即“兀、兀”（A461及C94A)和“嗀、嗀”(DCD1及DDFC)。

5. GBK

GBK编码扩展了GB2312，完全兼容GB2312编码（如'李'字的GBK、GB2312编码均为C0EE），但其不兼容BIG5编码（'長'字的BIG5编码为AAF8，GBK编码为E94C，'李'字的BIG5编码为A7F5 不等于C0EE），即如果使用GB2312编码，使用GBK解码是完全正常的，但是如果使用BIG5编码，使用GBK解码，会出现乱码。相比于GB2312编码，GBK编码了更多汉字，如'镕'字。GBK编码依然采用双字节编码方案，其编码范围：8140－FEFE，剔除xx7F码位，共23940个码位。能表示 21003 个汉字。点击这里，查看GBK编码。点击这里，可以查询中文的其他编码。在GBK之后又出现了GB18030编码，但是没有形成主流，故不做介绍，至此，中文编码的问题已经讲解完成。那么问题又来了，大陆网民与在海峡两岸网民交流时，若都使用GBK编码，则没有问题，若一方使用GBK编码，一方使用BIG5编码，那么就会出现乱码问题，这是在海峡两岸网民交流，如果漂洋过海进行交流呢？那就更容易出现乱码问题，这时候我们可能想，要是有一套全世界都通用的编码就好了，不要担心，这样的编码确实是存在的，那就是Unicode。

6. Unicode

有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO10646 项目 , 另一个是由多语言软件制造商组成的协会组织的 Unicode 项目. 在1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展。

Unicode编码(十六进制)	UTF-8 字节流(二进制)
000000-00007F	0xxxxxxx
000080-0007FF	110xxxxx 10xxxxxx
000800-00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Unicode为每一个字符分配一个码位，【知】的码位是30693 十六进制是0x77E5（U+77E5

7. UCS

UCS全称为"Universal Character Set"，在UCS中主要有UCS-2和UCS-4。

1. UCS-2

UCS-2是定长字节的，固定使用2个字节进行编码，从0000（十六进制）- FFFF（十六进制）的码位范围，对应第一个Unicode平面。采用BOM(Byte Order Mark)机制，该机制作用如下：1. 确定字节流采用的是大端序还是小端序。2. 确定字节流的Unicode编码方案。

2. UCS-4

UCS-4是定长字节的，固定使用4个字节进行编码。也采用了BOM机制。

8. UTF

UTF全称为"Unicode Transformation Format"，在UTF中主要有UTF-8，UTF-16和UTF-32。

UTF-8

UTF-8是一种变长编码方式，使用1-4个字节进行编码。UTF-8完全兼容ASCII，对于ASCII中的字符，UTF-8采用的编码值跟ASCII完全一致。UTF-8是Unicode一种具体的编码实现。UTF-8是在互联网上使用最广的一种Unicode的编码规则，因为这种编码有利于节约网络流量（因为变长编码，而非统一长度编码）。

UTF-8是一套以8位为一个编码长度的可变长编码

编码范围	编码
U+0000 ~ U+007F：	0XXXXXXX
U+0080 ~ U+07FF：	110XXXXX 10XXXXXX
U+0800 ~ U+FFFF：	1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+10FFFF：	11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

2.UTF-16

UTF-16则只使用2或4个字节编码。UTF-16也是Unicode一种具体的编码实现。

3.UTF-32

对于UTF-32是使用4个字节表示，也采用BOM机制，可以类比UTF-16，这里不再额外介绍。

四. 字符编码区别

1. UCS-2 与 UTF-16区别

UCS-2采用的两个字节进行编码。在0000到FFFF的码位范围内，它和UTF-16基本一致，为什么说基本一致，因为在UTF-16中从U+D800到U+DFFF的码位不对应于任何字符，而在使用UCS-2的时代，U+D800到U+DFFF内的值被占用。

UCS-2只能表示BMP内的码点（只采用2个字节），而UTF-16可以表示辅助平面内的码点（采用4个字节）。

我们可以抽象的认为UTF-16可看成是UCS-2的父集。在没有辅助平面字符（surrogate code points）前，UTF-16与UCS-2所指的意思基本一致。但当引入辅助平面字符后，想要表示辅助平面字符时，就只能用UTF-16编码了。

2. UCS -4与 UTF-16的区别

在BMP上，UTF-16采用2个字节表示，而在辅助平面上，UTF-16采用的是4个字节表示。对于UCS-4，不管在哪个平面都采用的是四个字节表示。

3. 为什么UTF-8编码不需要BOM机制

因为在UTF-8编码中，其自身已经带了控制信息，如1110xxxx 10xxxxxx 10xxxxxx 10xxxxxx，其中1110就起到了控制作用，所以不需要额外的BOM机制。

部分知识点
chr(编码值) - 将字符编码转换成字符 ord(字符) - 获取字符对应的编码值可以将字符编码放到字符串中便...
字符编码知识梳理
[toc] 字符编码：字符编码（英语：Character encoding）、字集码是把字符集中的字符编码为指定...
Python正式课第十三天
一、文件操作与字符编码 1. 字符编码编码将字符转换为对应的二进制序列的过程叫做字符编码（字符->二进制01）...
字符编码
一. 什么是字符编码？字符编码(英语:Character encoding)也称字集码，是把字符集中的字符编码为...
python 高级方法
Python的字符串类型字符编码方法查看Python中的字符串编码名称，查看系统的编码源文件字符集编码声明:...
Java内存中的文本编码
1、编码简介 1.1 概念简析：字符、字符集、编码字符集、Code Point、Code Unit和字符编码格式 ...
python 字符编码简述
字符编码问题很简单，当你可以区分以下几种概念之后：字节编码与字符编码字节串与字符串文件编码、IDE编码、其他...
13.Python之字符编码
Python之字符编码字符编码字符编码记录的是二进制与文字的对应关系。常见的字符编码ASCII码：包含英文字母...
笔记-encode与decode
字节串-->decode('原来的字符编码')-->Unicode字符串-->encode('新的字符编码')--...
Python基础(二)-字符串和编码
字符串和编码字符编码字符编码也称字集码，是把字符集中的字符编码为指定集合中某一对象，以便文本在计算机中存储和通...

字符编码

一. 什么是字符编码？

二. 为什么需要编码?

三. 字符编码都有哪些？

1. ASCII

2. ISO-8859-1

3. GB2312

4. BIG5

5. GBK

6. Unicode

7. UCS

8. UTF

四. 字符编码区别

1. UCS-2 与 UTF-16区别

2. UCS -4与 UTF-16的区别

3. 为什么UTF-8编码不需要BOM机制

相关文章

部分知识点

字符编码知识梳理

Python正式课第十三天

字符编码

python 高级方法

Java内存中的文本编码

python 字符编码简述

13.Python之字符编码

笔记-encode与decode

Python基础(二)-字符串和编码

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读