美文网首页
Unicode码的二进制转换(Java)

Unicode码的二进制转换(Java)

作者: 湘西刺客王胡子 | 来源:发表于2020-05-27 15:35 被阅读0次

内容为个人学习心得,不能对准确性做过多保证,错误之处还望指点。

  有时候我们会遇到一些\u开头的字符串,我们知道这些是Unicode码,一组\uxxxx字符串对应了一个Unicode字符。那这些编码字符的实际二进制存储格式是怎样呢?
  我们知道Unicode编码可以呈现世界上大部分的文字内容,而在其最通用的一种编码方式UTF-8下,单字符的存储长度为1-4字节(可变),这种设计的由来和优点就不多讲了,这里主要说说看到的\u编码串和二进制的换算方式。
  在UTF-8编码格式的java代码下,对“测试”两个字打印其字节和字符结果如下:

System.out.println(Charset.defaultCharset());
        String s = "测试";
        System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));
        byte[] bs = s.getBytes();
        System.out.println(Arrays.toString(bs));
        /*Result: 
        UTF-8
        6d4b    8bd5
        [-26, -75, -117, -24, -81, -107] */

  观察结果可知,“测试”两个字在UTF-8编码下占六个字节,将 【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格式,即得到“测试”两字的二进制存储内容,为:
11100110 10110101 10001011 11101000 10101111 10010101
  而通过char.ToHexString得到的 6d4b 8bd5 是这两个字的Unicode编码
  这两者是怎么关联上的呢?
通过UTF-8的百科页面有如下介绍:

UTF-8编码字节含义
  • 对于UTF-8编码中的任意字节B,如果B的第一位为0,则B独立的表示一个字符(ASCII码);
  • 如果B的第一位为1,第二位为0,则B为一个多字节字符中的一个字节(非ASCII字符);
  • 如果B的前两位为1,第三位为0,则B为两个字节表示的字符中的第一个字节;
  • 如果B的前三位为1,第四位为0,则B为三个字节表示的字符中的第一个字节;
  • 如果B的前四位为1,第五位为0,则B为四个字节表示的字符中的第一个字节;

  因此,对于上面得到的二进制串,每8位中的前面部分都是用来做标记的,1110开头表明需要3个字节来描述当前字符,并且当前字节为3字节中的第一部分,后面的字节使用10开头表明自己是当前字符编码串的后面部分。
  把前三字节这些标记为去掉再合并,得到 0110 110101 001011,而“”字的16进制Unicode编码转为二进制,正是0110 1101 0100 1011。
  这样做的优点很明显,扩展方便(看起来能支持到8字节编码呢),编码结构去掉了二进制的标记位,减小体积更易于数据传输。1字节的UTF-8码还完整兼容了ASCII码,所以UTF-8可以说应该是大部分场景下的最优选择了。

相关文章

  • Unicode码的二进制转换(Java)

    内容为个人学习心得,不能对准确性做过多保证,错误之处还望指点。   有时候我们会遇到一些\u开头的字符串,我们知道...

  • Java 序列化

    Java序列化是指把Java对象保存为二进制字节码的过程,Java反序列化是指把二进制码重新转换成Java对象的过...

  • Java对象序列化底层原理源码解析

    What Java序列化是指把Java对象保存为二进制字节码的过程,Java反序列化是指把二进制码重新转换成Jav...

  • Java 基本数据类型二进制转换

    概述 本文主要介绍java基础类型的二进制转换和二进制的基本概念。 二进制: 1,二进制是以0和1为码,逢2进1,...

  • 编码转换

    转换简述 字符串根据utf8编码encode为字节码(unicode),字节(unicode)解码decode对应...

  • 即时编译(JIT)和运行前编译(AOT)

    CPU 只能执行二进制码,所有我们写的代码都需要转换成二进制码才能被 CPU 执行,高级语言转换成二进制码分为两种...

  • Unicode

    编码 按照某一规则用二进制表示一个字符。 Unicode字符集 Unicode(统一码、万国码、单一码),是计算机...

  • 第一模块: 开发基础(2)

    二进制 二进制与十进制之间的转换求342的二进制数 ASCII码 计算通过ASCII码将数字转换成文字 每一个0或...

  • day3总结

    1.什么是字符串 2.转义字符 3.Unicode编码 1).将Unicode码转换成字符: chr(编码) 2)...

  • Unicode码转换为汉字

    转汉字 我觉得没什么用,但是也记着吧,万一有用呢

网友评论

      本文标题:Unicode码的二进制转换(Java)

      本文链接:https://www.haomeiwen.com/subject/lqfwahtx.html