Android Dalvik 指令集

作者: 剑弑九幽 | 来源:发表于2017-09-28 10:04 被阅读0次

    本篇文章同时收录在我的个人博客:Android Dalvik 指令集

    前言

    目前 DEX 可执行文件主流的反汇编工具有 BakSmali 与 Dedexer,本篇文章 Dalvik 指令的语法都采用的 Smali 语法格式。

    了解 Dalvik 寄存器

    Dalvik 虚拟机基于寄存器架构,作用与特定的 CPU 上运行,设计之初采用了 ARM 架构,ARM 架构的 CPU 本身集成了多个寄存器,Dalvik 将部分寄存器映射到了 ARM 寄存器上,还有一部分则通过调用栈进行模拟,<font color="#ff0000">Dalvik 中用到的寄存器都是 32 位的,支持任何类型,64 位类型用 2 个相邻的寄存器表示</font>。

    Dalvik 寄存器的取值返回:v0 ~ v65535,从语法 "op vAAAA , vBBBB" 可以看出,每个大写字母是 4 位,所以就是 2 的 16 次方减 1。

    v 命名法与 p 命名法

    假设一个函数使用到了 M 个寄存器, 并且该函数有 N 个参数,根据 Dalvik 虚拟机参数传递方式中的规定:参数使用最后 N 个寄存器,局部变量使用 v0 开始的前 M-N 个寄存器。

    v 命名法 p 命名法 寄存器含义
    v0 v0 第一个局部变量寄存器
    v1 v1 第二个局部变量寄存器
    ... ... 中间的局部变量寄存器依次递增且名称相同
    vM-N p0 第一个参数寄存器
    ... ... 中间的参数寄存器分别依次递增
    vM-1 pN-1 第 N 个参数寄存器

    Dalvik 字节码的类型、方法、字段的表示方式

    类型

    Dalvik 字节码只有两种类型,基本类型与引用类型,Dalvik 使用这两种类型来表示 Java 语言的 全部类型,除了对象和数组属于引用类型,其他 Java 类型都是基本类型。

    Dalvik 字节码类型描述符:

    语法 含义
    V void, 只用于返回值类型
    Z boolean
    B byte
    S short
    C char
    I int
    J long
    F float
    D double
    L Java class 类型
    [ 数组类型

    L 类型可以表示 java class 类型中的任何类型,这些类在 Java 代码中以 package.name.ObjectName 方式引用。
    在 Dalvik 汇编代码中, 它们以 Lpackage/name/ObjectName; 形式表示,注意最后有个分号,L 表示后面跟着一个 Java 类, package/name/ 表示对象所在的包,ObjectName 表示对象的名称,最后分号表示对象名结束。
    例:Ljava/lang/String; 表示 java.lang.String

    [ 类型可以表示所有的基本类型数组。[ 后面紧跟基本类型描述符,如 [I 表示一个整型一维数组,相当于 int[][[I 表示 int[][],多维数组的维数最大为 255。

    L 与 [ 可是同时使用用来表示对象数组。如 [Ljava/lang/String; 就表示 Java 中的 String[]

    方法

    Dalvik 使用 方法名、类型参数、返回值 来详细描述一个方法。
    格式如下:

    <font color="#ff0000">Lpackage/name/ObjectName;->MethodName(III)Z</font>

    Lpackage/name/ObjectName;:类型
    MethodName:方法名
    (III):方法的参数,这里是三个 int 类型
    Z:返回类型,这里是 boolean 类型

    再看个栗子:

    <font color="#ff0000">method (I[[IILjava/lang/String;[Ljava/lang/Object;)Ljava/lang/String;</font>

    对应的 java 代码如下:

    String method(int.int[][],int,String,Object[])

    BakSmali 生成的方法代码以 .method 指令开始,以 .end method 指令结束,根据方法类型的不同,在方法指令开始前可能会用 “#” 加以注释,如 “# virtual methods” 表示虚方法,“# direct methods” 表示直接方法。

    字段

    <font color="#ff0000">Lpackage/name/ObjectName;->FieldName:Ljava/lang/String;<font color="#ff0000">

    对应的 java 代码是

    String FieldName

    BakSmali 生成的字段代码以 .field 指令开头,在字段指令的开始可能会用 “#” 号加以注释,如 “# instance fields” 表示实例字段,“# static fields” 表示静态字段。

    Dalvik 指令集

    指令特点

    • 参数采用从目标(destination)到源(source)的方式
    • 根据字节码的大小与类型不同,一些字节码添加了名称后缀以消除歧义。
      • 32 位常规类型的字节码未添加任何后缀
      • 64 位常规类型的字节码添加 -wide 后缀
      • 特殊类型字节码根据具体类型添加后缀。它们可以是 -boolean、-byte、-char、...、-object、-class、-void
    • 根据字节码的布局与选项不同,一些字节码添加了 字节码后缀 以消除歧义,这些后缀通过在字节码主名称后添加 “/” 来分隔开。
    • 在指令集的描述中,宽度值中每个字母表示数据宽度为 4 位。

    举个栗子:

    move-wide/from16 vAA,vBBBB

    move:基础字节码(base opcode)。标识这是基本操作。
    wide:名称后缀(name suffix)。标识指令操作的数据宽度(64 位)。
    from16:字节码后缀(opcode suffix)。标识源为一个 16 位的寄存器引用变量。
    vAA:目的寄存器。范围 v0 ~ v255。
    vBBBB:源寄存器。范围 v0 ~ v65535。

    空操作指令

    空操作指令的助记符为 nop。它的值为 00,通常 nop 指令被用来做对齐代码之用,无实际操作。

    数据操作指令

    指令 描述
    move vA,vB 将 vB 寄存器的值赋值给 vA 寄存器,源寄存器和目的寄存器都是 4 位。
    move/from16 vAA,vBBBB 将 vBBBB 寄存器的值赋值给 vAA 寄存器,源寄存器为 16 位,目的寄存器为 8 位。
    move/16 vAAAA,vBBBB 将 vBBBB 寄存器的值赋值给 vAAAA 寄存器,源寄存器和目的寄存器都是 16 位。
    move-wide vA,vB 为 4 位的寄存器对赋值,源寄存器和目的寄存器都是 4 位。
    move-wide/from16 vAA,vBBBB 同 move-wide
    move-wide/16 vAA,vBBBB 同 move-wide
    move-object vA,vB 为对象赋值,源寄存器和目的寄存器都是 4 位。
    move-object/from16 vAA,vBBBB 为对象赋值,源寄存器为 16 位,目的寄存器为 8 位。
    move-object/16 vAAAA,vBBBB 为对象赋值,源寄存器和目的寄存器都是 16 位。
    move-result vAA 将上一个 invoke 类型指令操作的单字非对象结果赋给 vAA 寄存器
    move-result-wide vAA 将上一个 invoke 类型指令操作的双字非对象结果赋给 vAA 寄存器
    move-result-object vAA 将上一个 invoke 类型指令操作的对象结果赋给 vAA 寄存器
    move-exception vAA 保存一个运行时发生的异常到 vAA 寄存器。这条指令必须是异常发生时的异常处理器的一条指令,否则指令无效。

    返回指令

    返回指令是函数结尾时运行的最后一条指令。

    指令 描述
    return-void 表示函数从一个 void 方法返回
    return vAA 表示函数返回一个 32 位非对象类型的值,返回值寄存器为 8 位的寄存器 vAA
    return-wide vAA 表示函数返回一个 64 位非对象类型的值,返回值寄存器为 8 位的寄存器对 vAA
    return-object vAA 表示函数返回一个对象类型的值,返回值为 8 位的寄存器 vAA

    数据定义指令

    数据定义指令用来定义程序中用到的常量、字符串、类等数据,它的基础字节码为 const。

    指令 描述
    const/4 vA,#+B 将数值符号扩展为 32 位后赋给寄存器 vA。
    const/16 vAA,#+BBBB 将数值符号扩展为 32 位后赋给寄存器 vAA。
    const vAA,#+BBBBBBBB 将数值赋给寄存器 vAA。
    const/high16 vAA,#+BBBB0000 将数值右边零扩展为 32 位后赋给寄存器 vAA
    const-wide/16 vAA,#+BBBB 将数值扩展为 64 位后赋给寄存器对 vAA
    const-wide/32 vAA,#+BBBBBBBB 将数值扩展为 64 位后赋给寄存器对 vAA
    const-wide vAA,#+BBBBBBBBBBBBBBBB 将数值赋给寄存器对 vAA
    const-wide/hight16 vAA,#+BBBB000000000000 将数值右边零扩展为 64 位后赋给寄存器对 vAA
    const-string vAA,string@BBBB 通过字符串索引构造一个字符串并赋给寄存器 vAA
    const-string/jumbo vAA,string@BBBBBBBB 通过字符串索引(较大)构造一个字符串并赋给寄存器 vAA
    const-class vAA,type@BBBB 通过类型索引获取一个类引用并赋给寄存器 vAA
    const-class/jumbo vAAAA,type@BBBBBBBB 通过类型索引获取一个类引用并赋给寄存器 vAA(这条指令占用两个字节,值为 0x00ff)

    锁指令

    锁指令多用在多线程中对同一对象的操作,Dalvik 提供了两条锁指令。

    指令 描述
    monitor-enter vAA 为指定的对象获取锁
    monitor-exit vAA 释放指定对象的锁

    实例操作指令

    与实例相关的操作包括实例的类型转换,检查及新建等。

    指令 描述
    check-cast vAA,type@BBBB 将 vAA 寄存器中的对象引用转换成指定的类型,如果失败会抛出 ClassCastException 异常,如果类型 B 指定的是基本类型,对于非基本类型的 A 来说,运行时始终会失败。
    instance-of vA,vB,type@CCCC 判断 vB 寄存器中的对象是否可以转换成指定的类型,如果可以 vA 赋给 1,否则赋给 0。
    new-instance vAA,type@BBBB 构造一个指定类型对象的新实例,并将对象引用赋给 vAA, 类型符 type 指定的类型不是数组。
    check-cast/jumbo vAAAA,type@BBBBBBBB 同 check-cast vAA,type@BBBB ,只是寄存器值和指令的索引取值返回更大(android 4.0 新增)
    instance-of/jumbo vAAAA,vBBBB,type@CCCCCCCC 同 instance-of vA,vB,type@CCCC ,只是寄存器值和指令的索引取值返回更大(android 4.0 新增)
    new-instance/jumbo vAAAA,type@BBBBBBBB 同 new-instance vAA,type@BBBB ,只是寄存器值和指令的索引取值返回更大(android 4.0 新增)

    数组操作指令

    数组操作包括获取数组长度、新建数组、数组赋值、数组元素取值与赋值等操作。

    指令 描述
    array-length vA,vB 获取给定 VB 寄存器中数组的长度并将值赋给 vA 寄存器
    new-array vA,vB,type@CCCC 构造指定类型(type@CCCC)和大小(vB)的数组,并将值赋给 vA
    filled-new-array {vC,vD,vE,vF,vG},type@BBBB 构造指定类型(type@BBBB)和大小(vA)的数组并填充数组内容。vA 寄存器是隐含使用的,除了指定数组的大小外还指定了参数的个数,vC ~ vG 是使用到的参数寄存器序列
    filled-new-array/range {vCCCC .. vNNNN},type@BBBB 指令功能同 filled-new-array {vC,vD,vE,vF,vG},type@BBBB,只是参数寄存器使用 range 字节码后缀指定了取值范围,vC 是第一个参数寄存器, N = A + C - 1
    fill-array-data vAA,+BBBBBBBB 用指定的数据来填充数组,vAA 为数组引用,引用必须为基础类型的数组,再指令后面会紧跟一个数据表
    new-array/jumbo vAAAA,vBBBB,type@CCCCCCCC 同 new-array vA,vB,type@CCCC ,只是寄存器值和指令的索引取值返回更大(android 4.0 新增)
    filled-new-array/jumbo {vCCCC .. vNNNN},type@BBBBBBBB 同 filled-new-array/range {vCCCC … vNNNN},type@BBBB ,只是索引取值返回更大(android 4.0 新增)
    arrayop vAA,vBB,vCC 对 vBB 寄存器指定的数组元素进行取值和赋值,vCC 指定数组元素索引,vAA 用来存放读取的或需要设置的数组元素的值,读取元素使用 aget 类指令,元素赋值使用 aput 类指令,根据数组中存储的类型指令后面会紧跟不同的指令后缀,指令列表有( aget , aget-wide , aget-object , aget-boolean , aget-byte , aget-char , aget-short , aput , aput-wide , aput-object , aput-boolean , aput-byte , aput-char , aput-short )

    异常指令

    Dalvik 指令集中有一条指令用来抛出异常。

    指令 描述
    throw vAA 抛出 vAA 寄存器中指定类型的异常

    跳转指令

    跳转指令用于从当前地址调转到指定的偏移处,Dalvik 指令集中有三种跳转指令:无条件跳转(goto)、分支跳转(switch)、条件跳转(if)。

    指令 描述
    goto +AA 无条件跳转到指定偏移处,偏移量 AA 不能为 0。
    goto/16 +AAAA 无条件跳转到指定偏移处,偏移量 AAAA 不能为 0。
    goto/32 +AAAAAAAA 无条件跳转到指定偏移处
    packed-switch vAA,+BBBBBBBB 分支跳转指令。vAA 寄存器为 switch 分支中需要判断的值, BBBBBBBB 指向一个 packed-switch-payload 格式的偏移表,表中的值是有规律递增的
    sparse-switch vAA,+BBBBBBBB 分支跳转指令。vAA 寄存器为 switch 分支中需要判断的值, BBBBBBBB 指向一个 packed-switch-payload 格式的偏移表,表中的值是无规律的偏移量
    if-test vA,vB,+CCCC 条件跳转指令,比较 vA 和 vB 的值,如果比较结果满足条件就跳转到 CCCC 指定的偏移处,偏移量 CCCC 不能为 0
    if-testz vAA,+BBBB 条件跳转指令,vAA 和 0 比较,如果比较结果满足或值为 0 时就跳转到 BBBB 指定的偏移处, 偏移量 BBBB 不能为 0
    if-test 类型的指令 对应的 Java 语法 描述
    if-eq if(vA==vB) 如果 vA 等于 vB 则跳转
    if-ne if(vA!=vB) 如果 vA 不等于 vB 则跳转
    if-lt if(vA<vB) 如果 vA 小于 vB 则跳转
    if-ge if(vA>=vB) 如果 vA 大于等于 vB 则跳转
    if-gt if(vA>vB) 如果 vA 大于 vB 则跳转
    if-le if(vA<=vB) 如果 vA 小于等于 vB 则跳转
    if-testz 类型的指令 对应的 Java 语法 描述
    if-eqz if(!vAA) vAA 为 0 则跳转
    if-nez if(vAA) vAA 不为 0 则跳转
    if-ltz if(vAA<0) vAA 小于 0 则跳转
    if-gez if(vAA>=0) vAA 大于等于 0 则跳转
    if-gtz if(vAA>0) vAA 大于 0 则跳转
    if-lez if(vAA<=0) vAA 小于等于 0 则跳转

    比较指令

    比较指令用于对两个寄存器的值(浮点型或者长整型)进行比较。它的格式为 “cmpkind vAA,vBB,vCC”,其中 vBB 寄存器与 vCC 寄存器是需要比较的两个寄存器或两个寄存器对,比较的结果放到 vAA 寄存器。

    指令 描述
    cmpl-float 比较两个单精度浮点数。 如果 vBB 寄存器大于 vCC 寄存器,则结果为 -1,相等则为 0,小于则为 1。
    cmpg-float 比较两个单精度浮点数。 如果 vBB 寄存器大于 vCC 寄存器,则结果为 1,相等则为 0,小于则为 -1。
    cmpl-double 比较两个双精度浮点数。 如果 vBB 寄存器对大于 vCC 寄存器对,则结果为 -1,相等则为 0,小于则为 1。
    cmpg-double 比较两个双精度浮点数。 如果 vBB 寄存器对大于 vCC 寄存器对,则结果为 1,相等则为 0,小于则为 -1。
    cmp-long 比较两个长整型数。 如果 vBB 寄存器大于 vCC 寄存器,则结果为 1,相等则为 0,小于则为 -1。

    字段操作指令

    字段操作指令用来对 对象实例 的字段进行读写操作,字段的类型可以是 java 中有效的数据类型。对普通字段和静态字段操作有两种指令集。

    普通字段

    iinstanceop vA,vB,field@CCCC

    普通字段指令前缀为 i,对普通字段进行读操作使用 iget 指令,写操作使用 iput 指令

    静态字段

    sstaticop vAA,field@BBBB

    静态字段指令前缀为 s,对静态字段进行读操作使用 sget 指令,写操作使用 sput 指令

    方法调用指令

    方法调用指令负责调用类实例的方法,它的基础指令为 invoke,方法调用指令有 “invoke-kind {vC,vD,vE,vF,vG},meth@BBBB”“invoke-kind/range{vCCCC .. vNNNN},meth@BBBB” 两类,后者只是在设置参数寄存器时使用了 range 来指定寄存器的范围。

    指令 描述
    invoke-virtual 或 invoke-virtual/range 调用实例的虚方法
    invoke-super 或 invoke-super/range 调用实例的父类方法
    invoke-direct 或 invoke-direct/range 调用实例的直接方法
    invoke-static 或 invoke-static/range 调用实例的静态方法
    invoke-interface 或 invoke-interface/ragne 调用实例的接口方法

    方法调用指令的返回值必须使用 move-result* 指令来获取。如下面两条指令:

    invoke-static {}, Landroid/os/Parcel;->obtain()Landroid/os/Parcel;  
    
    move-result-object v0
    

    数据转换指令

    数据转换指令用于将一种类型的数值转换成另一种类型,它的格式为 “unop vA,vB”,vB 寄存器或 vB 寄存器对存放需要转换的数据,转换后的结果保存在 vA 寄存器或 vA 寄存器对中。

    指令 描述
    neg-int 对整型数求补
    not-int 对整型数求反
    neg-long 对长整型数求补
    not-long 对长整型数求反
    neg-float 对单精度浮点数求补
    neg-double 对双精度浮点数求补
    int-to-long 将整型数转换为长整型
    int-to-float
    int-to-double
    long-to-int
    long-to-float
    long-to-double
    float-to-int
    float-to-long
    float-to-double
    double-to-int
    double-to-long
    double-to-float
    int-to-byte
    int-to-char
    int-to-short

    数据运算指令

    数据运算指令包括算数运算指令和逻辑运算指令。
    算数运算:加、减、乘、除、模、移位。
    逻辑运算:与、或、非、异或

    数据运算指令有如下四类(数据运算时可能是在寄存器或寄存器对间进行,下面的指令作用讲解时使用寄存器来描述):

    指令 描述
    binop vAA,vBB,vCC vBB 和 vCC 运算,结果保存到 vAA 中。
    binop/2addr vA,vB vA 和 vB 运算,结果保存到 vA 中。
    binop/lit16 vA,vB,#+CCCC vB 和常量 CCCC 运算,结果保存到 vA 中。
    binop/lit8 vAA,vBB,#+CC vBB 和常量 CC 运算,结果保存到 vAA 中。

    后面 3 类指令比第 1 类指令分别多出了 2addr、lit16、lit8 等指令后缀,四类指令中基础字节码相同的指令的运算操作是类似的,第一类指令中,根据数据类型不同会在基础字节码后面加上数据类型后缀,如 -int 或 -long 分别表示操作的数据类型为整型和长整型。
    第一类指令可归类如下:

    指令 描述
    add-type vBB + vCC
    sub-type vBB - vCC
    mul-type vBB * vCC
    div-type vBB / vCC
    rem-type vBB % vCC
    and-type vBB AND vCC
    or-type vBB OR vCC
    xor-type vBB XOR vCC (异或)
    shl-type vBB << vCC (有符号数)
    shr-type vBB >> vCC (有符号数)
    ushr-type vBB >> vCC (无符号数)

    其中基础字节码后面的 -type 可以是 -int,-long,-float,-double。后面 3 类指令与之类似。

    每个指令的字节码值占用一个字节,范围是 0x0 ~ 0x0ff 。

    在 android 4.0 中,增加了一部分扩展指令,主要是在指令助记符后添加了 jumbo 后缀,增加了寄存器和常量的取值范围。

    说明

    本篇文章内容整理自『Android 软件安全与逆向分析』。

    相关文章

      网友评论

        本文标题:Android Dalvik 指令集

        本文链接:https://www.haomeiwen.com/subject/tjrmextx.html