字符集含义:一个由整数向现实世界中文字的符号的Map
常见的字符集
- ASCII:128字符,1字节
- ISO-8859-1:对ASCII进行扩充,1字节
- GBK:中国自研标准,多字节,字符集+编码
- Unicode:13万个字符,多字节
- UTF-8:Unicode编码的分支
- UTF-16:Unicode编码的分支
我们常使用使用的就是Unicode字符集,
在Unicode中,码位的总范围为0x0000到0x10FFFF
有几个概念是了解字符集以及它的编码必备知识
- 码点(code point), 在Unicode中,对于每一个字符编码的值,叫做code point
就是我们查Unicode编码表得到的 例如 ‘明’字 的码点是0x660e - 基础多语言平面(Basic Multilingual Plane) 就是范围在0x0000 - 0xFFFF 两个字节
- 代码单元(code unit):能表示一个单元的编码文本的最小位的组合
编码方式
UTF-32 :32bit 4字节1个code unit 就能表示所有字符
UTF-16 :16bit,变长 2个字节 或4个字结 表示一个字符,大于0xFFFF的通过高低代理表示 所以需要1个code unit-2个codeunit
UTF-8 :8bit ,变长 1-4个字节表示一个字符,通过不同区间添加不同前缀。
详见下面链接
Unicode 字符集与字符编码
Unicode字符集与编码
网友评论