美文网首页程序员
文档保存格式UTF-8

文档保存格式UTF-8

作者: 开水不加冰 | 来源:发表于2020-05-14 17:45 被阅读0次

ASCII码:

     C语言中,一个字节对应八位二进制数,每一位二进制数就有0、1两种状态,所以一个字节有2^8=256种不同的状态,美国人最早用一字节的数据表示256个字符,称为ASCII码。ASCII定义了128个字符,也就是只使用了8位二进制数的后七位,最前面的一位统一规定为0


Unicode

问题:

 128个字符来编码英文是完全足够的,但是用来表示其他语言,128个字符是远远不够的,即便用上闲置的最高位,不同国家的编码会不一样。最终,美国人意识到提出一种标准方案来展示世界上所有语言中的所有字符, unicode由此诞生了。

     Eg:

“汉”字在unicode码点是0x6c49需要两个字节来表示,转化为二进制数110110001001001就是他的编码,但是问题又来了,当你译码时,比如看到的两个字节,那它到底表示的是一个两字节字符还是两个一字节字符。

为了解决这个编码问题,编码采用定长编码,选字节的编码方式,即4字节编码。

 


UTF-8

这种情况下,编码译码都能实现一对一,但是又出现了一点小bug:空间的浪费(字符不足四字节时,高位全部补零),所以我们能不能想一种办法既能解决unicode的译码译码问题又不会浪费空间呢?UTF-8解决了这个问题。(既然译码时识别不出一个字节和多个字节的字符,那就在多字节字符上面做一些标志位)

UTF-8可以根据字符的不能变换长度,使用1-4个字节表示一个字符。编码规则如下:

[if !supportLists]1)  [endif]单个字节的字符,同unicode(向后兼容)

[if !supportLists]2)  [endif]对于需要N个字节来表示的字符(N > 1),第一个字节的前N位都设为1,第N + 1位设为0,剩余的N – 1个字节的前两位都设为10,剩下的二进制位使用这个字符的unicode码点来补充。如下:

Unicode 十六进制码点              UTF-8二进制

00000 0000 – 0000 007F  2^4 + 2^3   0xxxxxxx                          2^7

00000 0080 – 0000 07FF  2^7 + 2^4   110xxxxx 10xxxxxx                 2^11

00000 0800 – 0000 FFFF  2^11 + 2^5  1110xxxx 10xxxxxx 10xxxxxx          2^16

00001 0000 – 0010 FFFF  2^16 + 2^5  11110xxx10xxxxxx 10xxxxxx 10xxxxxx   2^21

Eg:

“汉”字unicode的码点0x6c49(2^4+2^4+2^4+2^3),原本只需要两字节表示,高位补零即可。但是这里添加了标志位,对照上图,需要三字节表示。

 格式是:1110xxxx 10xxxxxx 10xxxxxx

0x6c49转为二进制:110110001001001

从地位依次填充(高位补零):  11100110 10110001 10001001

转为十六进制(UTF-8):0xE6 B189

译码时:有多少个1就代表是多少个字节(N个后由一个0隔开)

 


UTF-16

平面的概念:unicode将全世界所有的字符定义在一个集合里,这么多字符不是一次性定义的,而是分区定义。每个区可以存放65535个(2^16)字符,称为一个平面。目前共使用了17(2^4+1)个平面。

基本平面的码点范围:0x0000-0xffff  ,都采用两字节存储,因此不兼容ASCII码

辅助平面的码点范围:0x010000-0x10ffff<2^5>

编码规定:

     基本平面占用两字节,辅助平面占用四字节。

同样的问题:

     译码时怎么区分两字节和四字节字符呢?

在这里使用了另外一种方法:

在基本平面内设置了一个空段:0xD800-0xDFFF,这2^11空间分为两部分,D8000到    DBFF(共2^10空间)称为高位,DC00到DFFF称为底位,为什么要这么称呼呢?

UTF-16把超出基本平面部分的字节分高低位(高8位,底8位),然后分别映射(从地位开始复制,多余位不动)到刚说的基本平面的空段的高低位(高位补零)

 Eg:

     汉子“?”的unicode码点为0x20BB7

基本平面存储为0xffff

超出部分为0x20BB7-0x10000=10BB7

转为二进制:100001011 10110111

补齐20位:0001000010 1110110111

映射:

0001000010(高十位)-> 0XD800(1101101100000000)  :  1101100001000010转十六进制:D842

 1110110111(底十位) ->0xDC00(1101110000000000)  :  1101111110110111转十六进制:DFB7

得到汉字“?”的UTF-16编码为0xD842 0xDFB7

  辅助平面转换公式:

   H = ( num– 0x10000) / 0x400) + 0xD800

   L = ( num– 0x10000) % 0x400) + 0xDC00

UTF-8是对多字符进行标记,不固定长度存储从而节省空间

UTF-16,小于两字节长度的字符固定两字节长度存储,超出就按四字节存储,而四字节分为高低位映射到前两字节存储,也就是只用了两字节空间


总结:

    Unicode是一种可以在计算机上使用的字符编码,它为每一种语言每一个字符都设定了一个二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。使用数字0-0x10FFFF映射字符,最多容纳1114112个字符(的17个平面大小2^16*17,其中有已经使用的平面,也有备用平面或者给用户自定义字符平面等)。

UTF-8、UTF-16、UTF-32是对Unicode字符集不同的编码方式,比如汉字“字”在unicode中对应的数字是23383,把其按照不同的编码方式转换为程序数据如下:(无符号)

UTF-8:0xE6,0xB1,0x89,0xAD,0x97

UTF-16:0x6C49,0x5B57

相关文章

  • 文档保存格式UTF-8

    ASCII码: C语言中,一个字节对应八位二进制数,每一位二进制数就有0、1两种状态,所以一个字节有2^8=25...

  • python UnicodeDecodeError: 'gbk'

    在Python中,使用open方法读取文本文档时,如果文档中有中文,那么文档应该是以UTF-8格式保存的, 所以代...

  • nodejs基本用法

    注意:编码保存格式utf-8,res.setHeader声明浏览器解析格式

  • line 1: #!/bin/bash: No such fil

    用ultraedit或者notepad++保存文件为UNIX UTF-8 NO BOM格式即可

  • 遇到的编码问题

    问题 将其保存为utf-8格式,按utf-8格式打印是乱码 怎么解决 这样定义的字符串还是为gbk编码,按utf-...

  • 2016.5.4

    1.javadoc一般都是用utf-8格式,在做文档的时候注意加上:-encoding utf-8 -charse...

  • Postman处理问题总结

    Postman 读取CSV文件内容 1、维护CSV文件内容,如果包含中文则保存文件的编码格式为utf-8格式。维护...

  • OFD格式文档转换成WORD格式,该怎么操作?

    想要对OFD格式文档进行一些修改,就先需要将OFD格式文档转换成WORD才行的,因为OFD格式是进行文档保存的一种...

  • Python中文件编码的检测

    前言: 文件打开的原则是“以什么编码格式保存的,就以什么编码格式打开”,我们常见的文件一般是以“ utf-8 ”或...

  • AHK send中文乱码

    新建一个txt保存为BOM的UTF-8格式再改回去ahk脚本编写

网友评论

    本文标题:文档保存格式UTF-8

    本文链接:https://www.haomeiwen.com/subject/fhkxohtx.html