美文网首页
关于java中protobuf中序列化基本类型的原理探索及解决方

关于java中protobuf中序列化基本类型的原理探索及解决方

作者: 且听风吟lst | 来源:发表于2017-07-26 21:39 被阅读0次

最近在做一些.net转java的开发工作,碰到了一些在C#中相对比较容易处理,但是在java中不是那么容易处理,或者说,处理方案不是那么明显的问题。Protobuf序列化就是其中一个。
问题背景是:线上有若干的C#的WCF服务需要调用,由于我们的应用是先切换的,在对方服务不改变的情况下,要能做到我们切换成java之后,能够实现访问的平滑过渡。其中一部分服务的请求有对应的.proto契约文件,利用protoc工具可以生成对应的java文件,从而利用生成的java的类代码里的parseFrom方法,实现protobuf序列化;但是偏偏碰到了一个请求参数是String字符串类型的服务,由于没有proto文件,所以就不能生成对应的类,更没有对应的parseFrom方法,出现了难题。
在C#中,原来采用的protobuf-net.dll这个库,里面可以采用如下方式对字符串类型 (或者其他基本类型)进行序列化:

public static string SerializeObject(T obj) where T : class       
 {           
            string result = "";            
            try{        
                  using (MemoryStream stream = new MemoryStream()){           
                  Serializer.Serialize(stream, obj);
                  result = System.Convert.ToBase64String(stream.ToArray());
                //序列化方式
                  result = string.Format("{0}{1}", "protobuff", result);
                  }
                  catch (Exception e){
                    throw e;
                  }
                  return result;
              }
}

而Java则开始没有这种统一的泛型序列化方式,于是趁这个机会,了解了一些protobuf底层序列化的原理。
以String类型的序列化为例,首先要说的是protobuf中用到的varint编码。
Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。比如对于 int32 类型的数字,一般需要 4 个 byte 来表示。但是采用 Varint,对于很小的 int32 类型的数字,则可以用 1 个 byte 来表示。当然凡事都有好的也有不好的一面,采用 Varint 表示法,大的数字则需要 5 个 byte 来表示。从统计的角度来说,一般不会所有的消息中的数字都是大数,因此大多数情况下,采用 Varint 后,可以用更少的字节数来表示数字信息。
对于每个字节的最高位来说,为了能够确认,一个数是由几个字节来进行编码的,varint规定:如果该字节的最高位是1,则表示下面一个字节和该字节一起表示同一个数;如果前面两个字节最高位为1,第三个字节最高位为0,则表示要用三个字节来表示一个数。举个例子,比如对应整数200,200 = 128+64+4,显然由于一个字节最多可以表示最大到128,所以200至少要2个字节来进行编码。因此,用二进制表示为: 00000000 11000100. 由于最高位是用来标识是否采用下一个字节来表示数,没有数据意义,所以对于该二进制表示,应该每7位来划分:

                       0000001,1000100

varint编码采用小端模式,所以应该把这两个字节颠倒过来:

                       1000100,0000001

由于采用两个字节表示,所以颠倒之后的最高位应该添加1,低字节的高位补0,从而200最终的varint编码为:

                      11000100,00000001

----------------------------------------------------------华丽的分割线--------------------------------------------------------
当了解了varint编码之后,string类型进行序列化就可以展开说了。
先说protobuf定义message,有两个重要的东东。1.order,表示定义字段的顺序,显然如果只是一个string,就认为order=1;

  1. type规则结构类型,表示基本类型在protobuf中的类型,type在protobuf中有如下几个类型:


    图1 protobuf中关于基本类型的枚举关系

    显然,type有6种,用3个bit就可以表示,protobuf也是这么干的。用一个字节来表示,高5位bit表示order次序,低三位表示规则结构类型,显然对于string类型的序列化,可用一个字节表示:0000 1010,表示order=1,type=2.
    回到string序列化本身,通过和C#序列化结果对比,发现string的protobuf序列化结果由几个部分构成:
    ** head+ length的varint编码+字符串本身的utf-8编码**
    ** **其中head就是上面用一个字节表示的order+type,length的varint编码表示字符串本身utf-8字节数组长度的varint编码(可能由1-n个字节表示),搞清楚这些后,那string本身的protobuf序列化问题就迎刃而解了,实现代码如下:

private static byte[] protobufSerializeString(String str){
            byte [] protoBytes = str.getBytes(StandardCharsets.UTF_8);
            int  byteLen = protoBytes.length;
            List<Byte> encodingLen =varIntEncoding(byteLen);
            byte[] result = new byte[protoBytes.length+ encodingLen.size() + 1];
            result[0] = 0x0a;
            for(int i = 1; i <=encodingLen.size(); i++){  
                result[i] = encodingLen.get(i - 1);
            }
            System.arraycopy(protoBytes,0,result,encodingLen.size()+ 1,protoBytes.length);
            return result;
}
private static List<Byte> varIntEncoding(int number){
          int x = number;
          List<Byte> results =new ArrayList<Byte>();
          if(x <= 0){
              results.add(Byte.parseByte("0"));
              return results;
          }  
          while(x != 0){ 
              byte littleData =  (byte)(x & (byte)0x7f);
              results.add(littleData);
              x = x >> 7;
          }
          for(int i = 0 ;i < results.size()-1;i++){
              results.set(i, (byte)(results.get(i)| 0x80));
          }
          return results;
}

通过过程本身,了解到了底层protobuf的序列化原理,还是很有收获的。
如果以上有说的不对的地方,还望阅读者指出~~~~

相关文章

网友评论

      本文标题:关于java中protobuf中序列化基本类型的原理探索及解决方

      本文链接:https://www.haomeiwen.com/subject/ihtakxtx.html