美文网首页
关于java中protobuf中序列化基本类型的原理探索及解决方

关于java中protobuf中序列化基本类型的原理探索及解决方

作者: 且听风吟lst | 来源:发表于2017-07-26 21:39 被阅读0次

    最近在做一些.net转java的开发工作,碰到了一些在C#中相对比较容易处理,但是在java中不是那么容易处理,或者说,处理方案不是那么明显的问题。Protobuf序列化就是其中一个。
    问题背景是:线上有若干的C#的WCF服务需要调用,由于我们的应用是先切换的,在对方服务不改变的情况下,要能做到我们切换成java之后,能够实现访问的平滑过渡。其中一部分服务的请求有对应的.proto契约文件,利用protoc工具可以生成对应的java文件,从而利用生成的java的类代码里的parseFrom方法,实现protobuf序列化;但是偏偏碰到了一个请求参数是String字符串类型的服务,由于没有proto文件,所以就不能生成对应的类,更没有对应的parseFrom方法,出现了难题。
    在C#中,原来采用的protobuf-net.dll这个库,里面可以采用如下方式对字符串类型 (或者其他基本类型)进行序列化:

    public static string SerializeObject(T obj) where T : class       
     {           
                string result = "";            
                try{        
                      using (MemoryStream stream = new MemoryStream()){           
                      Serializer.Serialize(stream, obj);
                      result = System.Convert.ToBase64String(stream.ToArray());
                    //序列化方式
                      result = string.Format("{0}{1}", "protobuff", result);
                      }
                      catch (Exception e){
                        throw e;
                      }
                      return result;
                  }
    }
    

    而Java则开始没有这种统一的泛型序列化方式,于是趁这个机会,了解了一些protobuf底层序列化的原理。
    以String类型的序列化为例,首先要说的是protobuf中用到的varint编码。
    Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。比如对于 int32 类型的数字,一般需要 4 个 byte 来表示。但是采用 Varint,对于很小的 int32 类型的数字,则可以用 1 个 byte 来表示。当然凡事都有好的也有不好的一面,采用 Varint 表示法,大的数字则需要 5 个 byte 来表示。从统计的角度来说,一般不会所有的消息中的数字都是大数,因此大多数情况下,采用 Varint 后,可以用更少的字节数来表示数字信息。
    对于每个字节的最高位来说,为了能够确认,一个数是由几个字节来进行编码的,varint规定:如果该字节的最高位是1,则表示下面一个字节和该字节一起表示同一个数;如果前面两个字节最高位为1,第三个字节最高位为0,则表示要用三个字节来表示一个数。举个例子,比如对应整数200,200 = 128+64+4,显然由于一个字节最多可以表示最大到128,所以200至少要2个字节来进行编码。因此,用二进制表示为: 00000000 11000100. 由于最高位是用来标识是否采用下一个字节来表示数,没有数据意义,所以对于该二进制表示,应该每7位来划分:

                           0000001,1000100
    

    varint编码采用小端模式,所以应该把这两个字节颠倒过来:

                           1000100,0000001
    

    由于采用两个字节表示,所以颠倒之后的最高位应该添加1,低字节的高位补0,从而200最终的varint编码为:

                          11000100,00000001
    

    ----------------------------------------------------------华丽的分割线--------------------------------------------------------
    当了解了varint编码之后,string类型进行序列化就可以展开说了。
    先说protobuf定义message,有两个重要的东东。1.order,表示定义字段的顺序,显然如果只是一个string,就认为order=1;

    1. type规则结构类型,表示基本类型在protobuf中的类型,type在protobuf中有如下几个类型:


      图1 protobuf中关于基本类型的枚举关系

      显然,type有6种,用3个bit就可以表示,protobuf也是这么干的。用一个字节来表示,高5位bit表示order次序,低三位表示规则结构类型,显然对于string类型的序列化,可用一个字节表示:0000 1010,表示order=1,type=2.
      回到string序列化本身,通过和C#序列化结果对比,发现string的protobuf序列化结果由几个部分构成:
      ** head+ length的varint编码+字符串本身的utf-8编码**
      ** **其中head就是上面用一个字节表示的order+type,length的varint编码表示字符串本身utf-8字节数组长度的varint编码(可能由1-n个字节表示),搞清楚这些后,那string本身的protobuf序列化问题就迎刃而解了,实现代码如下:

    private static byte[] protobufSerializeString(String str){
                byte [] protoBytes = str.getBytes(StandardCharsets.UTF_8);
                int  byteLen = protoBytes.length;
                List<Byte> encodingLen =varIntEncoding(byteLen);
                byte[] result = new byte[protoBytes.length+ encodingLen.size() + 1];
                result[0] = 0x0a;
                for(int i = 1; i <=encodingLen.size(); i++){  
                    result[i] = encodingLen.get(i - 1);
                }
                System.arraycopy(protoBytes,0,result,encodingLen.size()+ 1,protoBytes.length);
                return result;
    }
    private static List<Byte> varIntEncoding(int number){
              int x = number;
              List<Byte> results =new ArrayList<Byte>();
              if(x <= 0){
                  results.add(Byte.parseByte("0"));
                  return results;
              }  
              while(x != 0){ 
                  byte littleData =  (byte)(x & (byte)0x7f);
                  results.add(littleData);
                  x = x >> 7;
              }
              for(int i = 0 ;i < results.size()-1;i++){
                  results.set(i, (byte)(results.get(i)| 0x80));
              }
              return results;
    }
    

    通过过程本身,了解到了底层protobuf的序列化原理,还是很有收获的。
    如果以上有说的不对的地方,还望阅读者指出~~~~

    相关文章

      网友评论

          本文标题:关于java中protobuf中序列化基本类型的原理探索及解决方

          本文链接:https://www.haomeiwen.com/subject/ihtakxtx.html