美文网首页
字符集、码位、编码

字符集、码位、编码

作者: 一个好汉 | 来源:发表于2021-08-19 12:56 被阅读0次

基本概念
字符集(可见字符、控制字符…)
字符码位(字符在字符集中的位置)
字符编码规则(编码的二进制存储规则)

2. ASCII系列

2.1 ASCII码

字符集(ASCII字符集):128个字符
码位:128个
编码(ASCII码):码位的二进制

主要是为了解决美国字符编码问题
美国哪有那么多字符 一个字节就搞定了

2.2 LATIN1

遵循ISO-8859-1 扩展的ASCII码
在ASCII码的基础上,新增了128个字符,解决欧洲一些国家的字符编码问题
基本每个欧洲国家的标准都不一样 还有什么其他ISO-8859-2 3 ……

3. GB系列

兼容ASCII

3.1 GB2312码

解决中国常见汉字编码问题
字符集:6763个汉字,682个除汉字外的字符。
码位:分区管理,共计94个区,每个区含94个位,共8836个码位

3.1.1 为什么从 0xA1 编码

GB2312 是双字节编码,与 ASCII 码兼容,0x80 - 0x9f 要留给控制块,只能从 0xA0 开始咯。又因 0xA0 正好是图形块的空格,于是就从 0xA1 编码

3.2 GBK

相对于GB2312字符集,新增近20000个汉字和符号

3.3 GB18030

相对于GBK,又新增了几千个少数名族字符
好多生僻字 基本都用不到的汉字

4. Unicode标准

通用字符集(UCS,Universal Character Set)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集
UCS-2用两个字节编码,UCS-4用4个字节编码

4.2.1 UTF-8编码规则

每次传送8位数据
是一种可变长的编码格式
兼容ASCII 可存放1到4个字节


utf8遵循严格的编码规则

字符“王”在UCS-4字符集中的码位为0x0000738B,存储编码为0xE78E8B

参考

字符集、码位、编码:ASCII、LATIN1、GB2312、GBK、Unicode、UTF-8、UTF-16、UTF-32

相关文章

  • 字符集、码位、编码

    基本概念字符集(可见字符、控制字符…)字符码位(字符在字符集中的位置)字符编码规则(编码的二进制存储规则) 2. ...

  • 字符编码表CEF

    字符编码表CEF 已经有了编码字符集,且这个字符集中的每个字符都有一个非负整数码位与之一一对应。是否解决所有问题了...

  • 关于JavaScript编码你应该知道的

    1. 字符集和编码的关系 字符集是字符的集合,编码则是字符集中的字符要如何存储的规则。 如上图,当字符集和编码一一...

  • Java内存中的文本编码

    1、编码简介 1.1 概念简析:字符、字符集、编码字符集、Code Point、Code Unit和字符编码格式 ...

  • mysql字符集编码和数据类型

    字符集编码 字符集是一套符号和编码。mysql、database、table、column都可以设置编码。 更改字...

  • JavaWeb开发之编码格式

    编码格式 Java语言在内存当中默认使用的字符集 默认会用“Unicode”编码格式(字符集)来保存字符。 编码 ...

  • Mysql字符集设置

    mysql字符集编码

  • mysql alter小结

    设置字符集编码

  • 字符集和字符编码

    一篇很好地字符集和字符编码的详细介绍 字符集和字符编码(Charset & Encoding)

  • 【变量】python中的字符集和编码

    字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...

网友评论

      本文标题:字符集、码位、编码

      本文链接:https://www.haomeiwen.com/subject/hlipbltx.html