Dex结构

作者: Joe_blake | 来源:发表于2018-06-29 10:23 被阅读20次

    一、Define

    ​ dex是Android平台上(Dalvik虚拟机)的可执行文件,是Dalvik虚拟机编译java文件生成的.class文件整合生成.dex。

    ​ .Class文件是以class为区域进行划分的,每个区域包含这个class所有的方法、变量、常量等。而Dex文件以类型进行划分,将同一种类型的元素集中到一起存放,减小了冗余信息,最大程度上利用了空间。

    ​ 在5.0之前的设备上,第一次打开应用时会执行dexopt,生成.odex文件,以后每次都直接加载优化过后的.odex文件;在5.0及以后,ART虚拟机会进行dex2oat进行优化----dex字节码编译成.oat

    二、Explanation

    1.Dex文件结构

    我们可以使用 dx –dex –output=xxxx.dex xxxx.class命令将.class文件转换为.dex。

    • example:

      public class Dex {
          public static void main(String[] args) {
              System.out.println("Hello Dex");
          }
      }
      

      这个java类的dex文件如下:

      dex

    vim命令模式下输入 :%!xxd 命令可以转化16进制的表示方式

    Dex文件的结构如下:

    Dex 结构

    Dex文件主要分为3部分:文件头、索引区、数据区。数据结构如下:

    struct DexFile  {  
      DexHeader       Header;  
      DexStringId     StringIds[stringIdsSize];  
      DexTypeId       TypeIds[typeIdsSize];  
      DexProtoId      ProtoIds[protoIdsSize];  
      DexFieldId      FieldIds[fieldIdsSize];  
      DexMethodId     MethodIds[methodIdsSize];  
      DexClassDef     ClassDefs[classDefsSize];  
      DexData         Data[];  
      DexLink         LinkData;  
    }; 
    
    1. 文件头记录了dex文件的一些基本信息, 以及大致的数据分布. dex文件头部总长度是固定的0x70。其中包含了内容校验、签名校验、数据数量及偏移量等内容。

      ubyte 8-bit unsinged int
      uint 32-bit unsigned int, little-endian;
      
      alignment: 4 bytes
      struct header_item {
        ubyte[8] magic; //魔术,用来识别.dex文件,绝大多数的.dex文件值为dex\n035\0
        unit checksum;  //除magic和checksum外所有字节的adler32值,用于检测文件的完整性
        ubyte[20] siganature; //除magic、checksum、signature外所有字节的SHA-1值,用于唯一的标识文件
        uint file_size;     //文件大小,即 0x2dc = 732字节,和我们在电脑上看的大小一致
        uint header_size;   //header_item的大小,固定为0x70也就是112字节
        unit endian_tag;    //大小端标记,dex固定为 78563412 = 0x12345678,即小端序
        uint link_size;     //保留字段,链接部分的大小,如果此文件没有静态链接,则为0
        uint link_off;      //保留字段,并没有用到,值为0
        uint map_off;       //必定为非0值,map_item 的偏移地址,详细看下面的介绍。
        uint string_ids_size;   //string的数量,可以为0
        uint string_ids_off;    //string_ids列表的位置,可以为0
        uint type_ids_size;     //type的数量,可以为0,最大值为65535
        uint type_ids_off;      //type_ids列表的位置,可以为0
        uint proto_ids_size;    //proto_type的数量,最大值为65535
        uint proto_ids_off;     //proto_ids列表的位置,可以为0
        uint method_ids_size;   //method的数量,可以为0
        uint method_ids_off;    //method_ids列表的位置,可以为0
        uint class_defs_size;   //类定义(class definitions)的数量,可以为0
        uint class_defs_off;    //类定义列表的位置
        uint data_size;         //数据区大小
        uint data_off;          //数据区的位置
      }
      
    1. 索引区中索引了整个dex中的字符串、类型、方法声明、字段以及方法的信息, 其结构体的开始位置和个数均来自dex文件头中的记录。

      1. 字符串索引区, 描述dex文件中所有的字符串信息;

        struct DexStringId {
          uint string_data_off;      //对应string_data_item的偏移
        }
        
        struct string_data_item {
            uleb128 utf16_size;     //字符串长度
            ubyte data;             //字符串的内容,MUTF-8格式
        } 
        

        在字符串列表string_data_item中,代码中定义的类的类名, 成员函数名, 函数的参数类型, 字符串, 以及调用的系统函数的名和源码的文件名在字符串列表中都有对应,它们由MUTF-8编码表示。

      2. 类型索引区, 描述dex文件中所有的类型, 如类类型、基本类型、返回值类型等;

        //描述类型索引的结构体为DexTypeId, 里面只有一个成员,指向字符串索引区的下标
        struct DexTypeId {
          uint  descriptor_idx;      //string_ids 里的 index 序号
        };
        
      3. 方法声明索引区,描述dex文件中所有的方法声明

        struct proto_id_item{
          uint shorty_idx;            //描述method 原型
          uint return_type_idx;   //method 原型的返回值类型
          uint parameters_off;        /指向一个type_list结构体, 存放方法的参数列表,若没有参数则为0
        }
        
        struct type_list {
          uint size;              //参数的个数
          ushort type_idx[size];  //对应参数的类型
        }
        
      4. 字段索引区, 描述dex文件中所有的字段声明, 这个结构中的数据全部都是索引值, 指明了字段所在的类、字段的类型以及字段名称

        struct filed_id_item{
          ushort class_idx;       //field 所属class类型
          ushort type_idx;        //field 类型,    
          uint name_idx;      //field 名称,
        }
        
      5. 方法索引区, 描述Dex文件中所有的方法, 指明了方法所在的类、方法的声明以及方法名字

        struct method_id_item{
          ushort class_idx;       //method 所属的 class 类型
          ushort proto_idx;       //method 声明类型  
          uint name_idx;      //method 名称 
        }
        
    2. 数据区存放对类的定义和具字段名称。

      class_defs 区域里存放着 class definitions,class 的定义

      struct class_def_item {
        uint class_idx;            //类的类型
        uint access_flags;         //访问标志
        uint superclass_idx;       //父类类型
        uint interfaces_off;       //接口偏移
        uint source_file_idx;  //源文件名
        uint annotations_off;  //注解偏移
        uint class_data_off;       //类数据偏移
        uint static_value_off; //类静态数据偏移
      }
      

      各参数含义如下:

      1. class_idx描述具体的class类型,值是type_ids的一个index。值必须是一个class类型,不能是数组类型或者基本类型。
      2. access_flags描述class的访问类型,诸如public,final,static等。在官方文档dex-format里“access_flags Definitions”有具体的描述。
      3. superclass_idx,描述supperclass的类型,值的形式跟class_idx一样。
      4. interfaces_off,值为偏移地址,指向class的interfaces,被指向的数据结构为type_list。class若没有
        interfaces,值为0。
      5. source_file_idx,表示源代码文件的信息,值是string_ids的一个index。若此项信息缺失,此项值赋值为NO_INDEX=0xffff ffff。
      6. annotions_off,值是一个偏移地址,指向的内容是该class的注释,位置在data区,格式为annotations_direcotry_item。若没有此项内容,值为0。
      7. class_data_off,值是一个偏移地址,指向的内容是该class的使用到的数据,位置在data区,格式为class_data_item。若没有此项内容,值为0。该结构里有很多内容,详细描述该class的field,method,method里的执行代码等信息,后面有一个比较大的篇幅来讲述class_data_item
      8. static_value_off,值是一个偏移地址,指向data区里的一个列表(list),格式为encoded_array_item。若没有此项内容,值为0。

    class_data_off 指向 data 区里的 class_data_item 结构,class_data_item 里存放着本 class 使用到的各种数据,下面是 class_data_item 的逻辑结构 :

    struct class_data_item{
      uleb128 static_fields_size;     //静态字段
      uleb128 instance_fields_size;   //实例字段
      uleb128 direct_methods_size;    //直接方法(private或者构造方法)
      uleb128 virtual_methods_size;   //虚方法(非private、static、final,非构造方法)
      encoded_field static_fields[static_fields_size];        //静态字段
      encoded_field instance_fields[instance_fields_size];    //实例字段
      encoded_method direct_methods[direct_method_size];      //直接方法
      encoded_method virtual_methods[virtual_methods_size];   //虚方法
    }
    
    struct encoded_field{
      uleb128 filed_idx_diff;   //filed_idx相对差值
      uleb128 access_flags;     //访问权限
    }
    
    struct encoded_method{
      uleb128 method_idx_diff;  //method_idx相对差值
      uleb128 access_flags;     //访问权限
      uleb128 code_off;         //指向data区的偏移地址
    }
    

    code_off指向code_item结构

    struct code_item {
      ushort registers_size;//本段代码使用到的寄存器数目
      ushort ins_size;      //传入当前method的参数数量,后面的结果中默认的构造方法中这个值是1,原因是有个this,静态方法没this
      ushort outs_size;     //本段代码调用其它method时需要的参数个数
      ushort tries_size;    //代码块中异常处理的数量,结构为try_item
      uint debug_info_off;  //偏移地址,指向本段代码的debug信息存放位置,是一个debug_info_item结构
      uint insns_size;      //指令列表的大小,以16-bit为单位。insns是instructions的缩写
      ushort insns[insns_size];   //指令列表
      ushort paddding;                      // optional,值为0,用于对齐字节
      try_item tries[tyies_size];           // optional,用于处理java中的exception,常见的语法有try catch
      encoded_catch_handler_list handlers;  // optional,用于处理java中的exception,常见的语法有try catch
    }
    
    1. class_defs索引了.dex里面用到的class,以及对这个class的描述。Dex.dex里只有一个class,就是LDex;
    2. class_defs区,这里面其实是class_def_item结构。这个结构里描述了LHello;的各种信息,诸如名称,superclass,accessflag,interface等。class_def_item里有一个元素class_data_off,指向data区里的一个class_data_item结构,用来描述class使用到的各种数据。自此以后的结构都归于data区了。
    3. class_data_item结构,里描述值着class里使用到static_fieldinstance_fielddirect_methodvirtual_method的数目和描述。例如Hello.dex里,只有2个direct_method,其余的field和method的数目都为0。描述direct_method的结构叫做encoded_method,是用来详细描述某个method的。
    4. encoded_method结构,描述某个method的method类型,包含access_flagscode_off偏移地址,code_off指向的数据类型为code_item
    5. code_item,code_item结构里描述着某个method的具体实现。

    相关文章

      网友评论

          本文标题:Dex结构

          本文链接:https://www.haomeiwen.com/subject/nwwoyftx.html