美文网首页
Unicode与UTF-8

Unicode与UTF-8

作者: CasperWnb | 来源:发表于2018-11-12 15:08 被阅读0次

UTF-8规则:

1. 对于单字节的符号, 字节的第一位设为0, 后面7位为这个符号的Unicode码, 因此utf-8的前128个字符与

  ASCII兼容.

2. 对于n字节的符号(n > 1), 第一个字节的前n位都是1, 第n+1位为0, 后面字节的前两位一律设置为10.

  剩下的二进制位为这个符号的unicode码.

UTF-8的编码范围:

|Unicode符号范围(16进制) | UTF-8编码方式 (二进制) |

|-------------------------|:-------------------------------------|

| 0000 0000 - 0000 007F  | 0xxxxxxx                            |

| 0000 0080 - 0000 07FF  | 110xxxxx 10xxxxxx                  |

| 0000 0800 - 0000 FFFF  | 1110xxxx 10xxxxxx 10xxxxxx          |

| 0001 0000 - 0010 FFFF  | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |

以"严"为例: 其Unicode是4E25, 位于0x0800-0xFFFF之间, 因此严的UTF-8编码需要3个字节, 从严的最后一个

二进制位开始, 依次从后向前填入格式的x中, 多出的位补0, 这样就得到了严的UTF-8编码. 其16进制就是:

E4B8A5.

相关文章

  • unicode, utf8/16, codepoint, big

    big/small endian ASCII,Unicode和UTF-8 unicode、codepoint

  • 中文处理

    从几个例子说说 Erlang 如何处理中文. 知识介绍:Unicode与UTF-8的区别,简单来说,Unicode...

  • ASCII,Unicode,UTF-8,Base-64

    字符编码笔记:ASCII,Unicode和UTF-8字符编码笔记:ASCII、Unicode、UTF-8 和 Ba...

  • python基础-13-史上最通俗易懂的编码讲解

    常用编码 ascii unicode utf-8 gbk 编码 ascii unicode utf-...

  • 关于编码二三事

    1.中文编码共有3种,unicode, utf-8, gb2312。虽然unicode和utf-8比较像,但是我们...

  • 搞定编码格式问题

    Unicode 于 utf-8 以下文章来自知乎回答 Unicode 是「字符集」UTF-8 是「编码规则」 其中...

  • Unicode与UTF-8

    Unicode Unicode是一个国际标准,用于文本的编码和表示。它使得可以用标准格式来表示来自任意语言的几乎所...

  • unicode 与 utf-8

    1. wikipedia 重点看章节1.2 Architecture and terminology 2. 仔细读...

  • Unicode与UTF-8

    UTF-8规则: 1. 对于单字节的符号, 字节的第一位设为0, 后面7位为这个符号的Unicode码, 因此ut...

  • Unicode 与 UTF-8

    最近在开发上遇到了点编码的问题,又重新学习了字符集以及编码的知识。特此记录一下。 核心 我比较喜欢一开始讲述核心的...

网友评论

      本文标题:Unicode与UTF-8

      本文链接:https://www.haomeiwen.com/subject/mzpfhttx.html