Unicode？ASCII？UTF-8?

作者: 果汁凉茶丶 | 来源:发表于2019-04-27 15:15 被阅读25次

python基础-13-史上最通俗易懂的编码讲解
ASCII，Unicode，UTF-8，Base-64
ASCII、Unicode、UTF-8
unicode, utf8/16, codepoint, big
一些好的网站、文章
go之UTF-8
编码/加密例子
字符串编码和格式化
重谈MySQL字符集
字符编码

我们知道，计算机内部，所有信息最终都是一个二进制值，每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte），从00000000到11111111

# ASCII

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。

ASCII 码一共规定了128个字符的编码，比如空格SPACE是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的一位统一规定为0。而最高位为1 的另128 个字符（80H—FFH）被称为“扩展ASCII”，一般用来存放英文的制表符、部分音标字符等等的一些其它符号

# Unicode

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如中文就有约十万种字符，因此一些国家开始编制自己的编码。如由中国国家标准总局1980年发布的《信息交换用汉字编码字符集》GB2312。但这导致一个问题，世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。

Unicode作为一个全新的编码系统应运而生，它可以将中文、法文、德文……等等所有的文字统一起来考虑，为每一个文字都分配一个单独的编码。正如它的名字所表示的含义一样。Unicode 当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字严。具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表。

需要注意的是，Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。比如，汉字严的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说，这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。
这里就有两个严重的问题，第一个问题是，如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。这两个问题造成的结果是：1）出现了 Unicode 的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示 Unicode。2）Unicode 在很长一段时间内无法推广，直到互联网的出现。

Unicode编码，又称统一码、万国码、单一码，它是全世界一种通用的编码，范围:\u0000-\uFFFF，作为中国人，我们肯定关心中文的使用，关于中文的码号如下：

汉字：[0x4e00, 0x9fa5]（或十进制[19968, 40869]）
数字：[0x30, 0x39]（或十进制[48, 57]）
大写字母：[0x41, 0x5a]（或十进制[65, 90]）
小写字母：[0x61, 0x7a]（或十进制[97, 122]）

// 是否包含汉字: JavaScript
function isContainChinese(str) {
  // [\u4E00-\u9FA5]表示汉字，[\uFE30-\uFFA0]表示全角
  var pattern = /[\u4E00-\u9FA5]|[\uFE30-\uFFA0]/gi; 
  return !pattern.exec(str)
}

# UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。其他实现方式还包括 UTF-16（字符用两个字节或四个字节表示）和 UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8 是 Unicode 的实现方式之一。

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。他的规则很简单，只有二条：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。
对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

UTF-8的编码规则

【分析】
也就是说：如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则1的个数就表示当前字符占用多少个字节。

以严为例，它的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5