基本概念
字符集(可见字符、控制字符…)
字符码位(字符在字符集中的位置)
字符编码规则(编码的二进制存储规则)
2. ASCII系列
2.1 ASCII码
字符集(ASCII字符集):128个字符
码位:128个
编码(ASCII码):码位的二进制
主要是为了解决美国字符编码问题
美国哪有那么多字符 一个字节就搞定了
2.2 LATIN1
遵循ISO-8859-1 扩展的ASCII码
在ASCII码的基础上,新增了128个字符,解决欧洲一些国家的字符编码问题
基本每个欧洲国家的标准都不一样 还有什么其他ISO-8859-2 3 ……
3. GB系列
兼容ASCII
3.1 GB2312码
解决中国常见汉字编码问题
字符集:6763个汉字,682个除汉字外的字符。
码位:分区管理,共计94个区,每个区含94个位,共8836个码位
3.1.1 为什么从 0xA1 编码
GB2312 是双字节编码,与 ASCII 码兼容,0x80 - 0x9f 要留给控制块,只能从 0xA0 开始咯。又因 0xA0 正好是图形块的空格,于是就从 0xA1 编码
3.2 GBK
相对于GB2312字符集,新增近20000个汉字和符号
3.3 GB18030
相对于GBK,又新增了几千个少数名族字符
好多生僻字 基本都用不到的汉字
4. Unicode标准
通用字符集(UCS,Universal Character Set)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集
UCS-2用两个字节编码,UCS-4用4个字节编码
4.2.1 UTF-8编码规则
每次传送8位数据
是一种可变长的编码格式
兼容ASCII 可存放1到4个字节

字符“王”在UCS-4字符集中的码位为0x0000738B,存储编码为0xE78E8B
参考
字符集、码位、编码:ASCII、LATIN1、GB2312、GBK、Unicode、UTF-8、UTF-16、UTF-32
网友评论