美文网首页
字符集与编码

字符集与编码

作者: 微风细雨007 | 来源:发表于2021-07-01 22:10 被阅读0次

    字符集含义:一个由整数向现实世界中文字的符号的Map

    常见的字符集

    • ASCII:128字符,1字节
    • ISO-8859-1:对ASCII进行扩充,1字节
    • GBK:中国自研标准,多字节,字符集+编码
    • Unicode:13万个字符,多字节
      • UTF-8:Unicode编码的分支
      • UTF-16:Unicode编码的分支

    我们常使用使用的就是Unicode字符集,
    在Unicode中,码位的总范围为0x0000到0x10FFFF

    有几个概念是了解字符集以及它的编码必备知识

    • 码点(code point), 在Unicode中,对于每一个字符编码的值,叫做code point
      就是我们查Unicode编码表得到的 例如 ‘明’字 的码点是0x660e
    • 基础多语言平面(Basic Multilingual Plane) 就是范围在0x0000 - 0xFFFF 两个字节
    • 代码单元(code unit):能表示一个单元的编码文本的最小位的组合

    编码方式

    UTF-32 :32bit 4字节1个code unit 就能表示所有字符
    UTF-16 :16bit,变长 2个字节 或4个字结 表示一个字符,大于0xFFFF的通过高低代理表示 所以需要1个code unit-2个codeunit
    UTF-8 :8bit ,变长 1-4个字节表示一个字符,通过不同区间添加不同前缀。
    详见下面链接
    Unicode 字符集与字符编码
    Unicode字符集与编码

    相关文章

      网友评论

          本文标题:字符集与编码

          本文链接:https://www.haomeiwen.com/subject/uvfdultx.html