"unicode" 和 "utf-8"

作者: tf_dejs | 来源:发表于2017-07-18 10:04 被阅读0次

unicode, utf8/16, codepoint, big
ASCII，Unicode，UTF-8，Base-64
关于编码二三事
go之UTF-8
一些好的网站、文章
字符编码ASCII UTF8 字节序大端小端
python基础-13-史上最通俗易懂的编码讲解
Unicode 和 UTF-8 的区别，你能说出来吗？不能或许要
"unicode" 和 "utf-8"
Unicode和UTF-8

开始计算机只在美国用。计算机只识别'1'和'0'，八位的字节一共可以组合出256(2的8次方)种不同的状态。最初美国人做计算机编码只针对英文字母和字符，把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。这个方案叫做 ANSI 的”Ascii”编码（American Standard Code for Information Interchange，美国信息互换标准代码）。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字。后来世界上各个国家都要使用计算机，128-255被成为“扩展字符集”，显然不够用。

ISO （国际标谁化组织）定制了国际化通用的编码法则”Universal Multiple-Octet Coded Character Set”，简称 UCS, 也就是“unicode“。其规定必须用两个字节，也就是16位来统一表示所有的字符，对于ASCII里的那些“半角”字符，unicode包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。由于”半角”英文符号只需要用到低8位，所以其高8位永远是0，因此这种方案在保存英文文本时会多浪费一倍的空间。

当时带宽相当昂贵，面对需要传输的众多无用数据，面向传输的众多 UTF（UCS Transfer Format）就应运而生，UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF-8可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

实际应用过程中，计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。大概关系如下（廖雪峰的博客）：

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：