美文网首页Android高阶
从 Arm 汇编看 Android C++虚函数实现原理

从 Arm 汇编看 Android C++虚函数实现原理

作者: 看雪学院 | 来源:发表于2017-01-11 18:06 被阅读74次

作者:MindStorm 看雪学院

1、前言

C++ 通过虚函数来实现多态, 从而在运行时动态决定要调用的函数。 那么虚函数的调用过程具体是怎样的呢? 本文将基于 Arm 汇编, 剖析 C++虚函数的调用过程。 本文涉及到的代码采用 ndk-r10d 进行编译。 由于水平有限, 理解不到位的地方,还请各位指正。

2、初窥 vtable

其实虚函数的调用是通过 vtable 来实现的。编译时, 编译器会为每一个申明有虚函数的类生成一个 vtable, 也就是说 vtable 和类一一对应。 vtable 中记录了所有虚函数的地址。 在对象初始化时, 对象会保存相应 vtable 的地址, 虚函数就可以根据其在 vtable 中的偏移来进行调用。 下面来看一个实际的例子:

class BaseA

{

private:

int baseA_field;

public:

BaseA(int baseA_field);

~BaseA();

virtual void baseA_virtual_1()

{

printf(“\t[-] BaseA::baseA_virtual_1()\n”);

}

virtual void baseA_virtual_2()

{

printf(“\t[-] BaseA::baseA_virtual_2()\n”);

}

virtual void baseA_virtual_3()

{

printf(“\t[-] BaseA::baseA_virtual_3()\n”);

}

};

BaseA::BaseA(int baseA_field)

{

printf(“[+] BaseA constructor called\n”);

this->baseA_field = baseA_field;

}

BaseA::~BaseA()

{

printf(“[+] BaseA destructor called\n\n”);

}

int main(int argc, char *argv[])

{

BaseA *baseA = new BaseA(1);

baseA->baseA_virtual_2();

delete baseA;

return 0;

}

上 述 代 码 中 , 类 BaseA 有 一 个 字 段 baseA_field 和 3 个 虚 函 数

baseA_virtual_1()、 baseA_virtual_2()、 baseA_virtual_3()。 在 main()中初始化了一

个 BaseA 的对象,并调用了其虚函数 baseA_virtual_2()。

用 IDA 分析 mian(), F5 查看其伪代码, 如下图所示:

第 5 行申请了 8byte 的空间, 因为 BaseA 有一个整型字段, 再加上 vtable 的地址所占的空间,共 8byte。

第 6 行调用 sub_5E4(), 即 BaseA 的构造函数, 对对象进行初始化。 注意调用类的实例方法时, 第一个参数始终是对象的地址。 BaseA 的构造函数伪代码如下:

由上可以知道, vtable 的地址会首先赋给 baseA 对象的前 4 个字节, 然后才执行构造函数的代码。 其中 vtable 的结构如下:

执行完构造函数后, BaseA 对象的内存如下所示:

接着看 main()伪代码的第 7 行, *(*v0 + 4)就是虚函数 baseA_virtual_2 的首地址, 因而(*(*v0 + 4))(v0);实际就是调用 baseA_virtual_2()。

3、无重写虚函数、 单继承

有一个类 SubClass 继承 BaseA, SubClass 有一个字段 subClass_field 和三个虚函数 subClass_virtual_1、 subClass_ virtual_2、 subClass_ virtual_3, SubClass 中没有重写 BaseA 中的虚函数( ps: 不重写虚函数没有多大意义,这里仅仅为了理解虚函数的实现机制), 此时代码如下:

class SubClass: public BaseA

{

private:

int subClass_field;

public:

SubClass(int subClass_field, int baseA_field);

~SubClass();

virtual void subClass_virtula_1()

{

printf(“\t[-] SubClass::subClass_virtula_1()\n”);

}

virtual void subClass_virtula_2()

{

printf(“\t[-] SubClass::subClass_virtula_2()\n”);

}

virtual void subClass_virtula_3()

{

printf(“\t[-] SubClass::subClass_virtula_3()\n”);

}

};

SubClass::SubClass(int subClass_field, int baseA_field) :

BaseA(baseA_field)

{

printf(“[+] SubClass constructor called\n”);

this->subClass_field = subClass_field;

}

SubClass::~SubClass()

{

printf(“[+] SubClass destructor called\n\n”);

}

int main(int argc, char *argv[])

{

SubClass *subClass = new SubClass(2, 1);

subClass->subClass_virtula_3();

delete subClass;

return 0;

}

用 IDA 分析 main(), F5 查看其伪代码, 如下图所示:

第 5 行为 SubClass 对象申请了 0xC byte 的内存空间, 即 vtable 地址、baseA_field 和 subClass_field, 各 4byte。

第 6 行调用 SubClass 的构造函数,对SubClass 对象进行初始化, sub_760()的伪代码如下图所示:

在 SubClass的构造函数中,首先会执行父类 BaseA 的构造函数,然后将 vtable 的地址赋给 SubClass 对象的前 4 个字节, 这样就可以覆盖掉执行 BaseA 构造函数时赋给 SubClass 对象 BaseA 类 vtable 的地址。 其中 SubClass 类 vtable 的结构

如下图所示:

执行完构造函数后, SubClass 对象的内存如下所示:

从上可见, SubClass 的 vtable 前面存的是父类 BaseA 虚函数的地址,后面存的是 SubClass 中申明的虚函数的地址。回头看 main()的伪代码,第 7 行, *(*v0+20)得到 vtable 第五项的值, 即

subClass_virtual_3, 因而(*(*v0+20))(v0)就是在调用 subClass_virtual_3()。

4、有重写虚函数、 单继承

现在将 SubClass 的 subClass_ virtual_2()去掉, 重写 baseA_virtual_2(), 代码

如下:

class SubClass: public BaseA

{

… …

virtual void baseA_virtual_2()

{

printf(“\t[-] SubClass::baseA_virtual_2()\n”);

}

… …

}

… …

int main(int argc, char *argv[])

{

BaseA *subClass = new SubClass(2, 1);

subClass->baseA_virtual_2();

delete subClass;

return 0;

}

用 IDA 分析 main(), F5 查看其伪代码, 如下图所示:

第 6 行调用 SubClass 的构造函数进行对象初始化, sub_758()的伪代码如下图所示:

第 9 行将 vtable 的值赋给 SubClass 对象的前 4 个字节, vtable 的结构如下图所示:

执行完 SubClass 的构造函数后, SubClass 对象的内存如下所示:

从上可以知道, 无重写时 vtable[1] = BaseA::baseA_virtual_2;重写后 vtable[1]

= SubClass::baseA_virtual_2。因而, 在 vtable 中, 子类重写的虚函数会覆盖相应的父类中的虚函数地址。

回到 main()伪代码,第 7 行中, *(*v0 + 4)获取 vtable 中第一项的值, 由于v0 是 SubClass 对象的指针,因而*(*v0 + 4)就是SubClass::baseA_virtual_2, 即

(*(*v0 + 4))(v0) 调用的是子类 SubClass 中的 baseA_virtual_2()。

分析到这里,相信大家对多态的实现机制应该有了一定的认识。

5、无重写虚函数、 多继承

C++支持多继承, 下面分析多继承情况下虚函数的调用机制。 首先分析多继承时,子类没有继承父类虚函数的情况。 考虑有如下继承关系的类:

其中 main()的代码如下:

int main(int argc, char *argv[])

{

SubClass *subClass = new SubClass(4, 3, 2, 1);

subClass->BaseA::virtual_1();

subClass->baseB_virtual_3();

subClass->subClass_virtual_1();

delete subClass;

return 0;

}

用 IDA 分析 main(), F5 查看其伪代码, 如下图所示:

第 5 行为 SubClass对象申请了 0x1C byte的空间,其中 4个字段占 0x10 byte,那么多出的 0xC byte 存的是什么呢? (其实是 3 个 vtable 的指针)

第 6 行调用 SubClass 的构造函数对 SubClass 对象进行初始化, sub_A1C()的伪代码如下图所示:

从上可知, 由于 SubClass 类有三个父类, 因而 SubClass 对象中有 3 个字段分别存着 3 个指向虚函数列表的地址, subClass 类对应的 vtable 如下图所示:

执行完 SubClass 类的构造函数后, SubClass 对象的内存结构如下图所示:

从上可知, SubClass 对象的内存结构是由 n * (vtable 指针 + 父类字段) + 子类字段(n 是父类的数目)构成的, 父类是按照申明的顺序排列, SubClass 中的虚函数地址存储在第一个父类 vtable 的后面。

回到 main()的伪代码:

第 7 行调用 sub_5F8(),即调用 subClass -> BaseA:: virtual_1(), 虽然是调用虚函数, 由于采用了作用域,编译器在编译阶段就明确知道要调用的函数,因而这里并没有通过 vtable 来进行调用。

第 8 行中, v0[2]是 SubClass 对象中 BaseB 类的 vtable 指针, *(v0[2]+8)得到虚函数 BaseB::baseB_virtual_3 的地址,因而(*(v0[2] + 8))(v0 + 2);对应源码中的subClass->baseB_virtual_3();。

注意这里第 0 个参数是 v0+2, 而不是 v0, 说明调用父类的虚函数时,第 0 个参数是 SubClass 对象中该父类所占内存空间的基址

(其实调用父类其他函数也是如此)。

通过对第 8 行的分析,第 9 行(*(*v0 + 12))(v0);就很好理解了,即调用subClass->subClass_virtual_1();

6、有重写虚函数、 多继承

接下来分析多继承时,有重写虚函数的情况。 考虑有如下继承关系的类:

在 main() 中将 SubClass 对象指针转为不同的父类指针进行虚函数调用,main()的代码如下:

int main(int argc, char *argv[])

{

SubClass *subClass = new SubClass(4,3,2,1);

((BaseA *)subClass)->virtual_1();

((BaseB *)subClass)->virtual_2();

((BaseC *)subClass)->virtual_1();

((BaseC *)subClass)->baseC_virtual_2();

delete subClass;

return 0;

}

用 IDA 分析 main(), F5 查看其伪代码, 如下图所示:

第 6 行调用 SubClass 的构造函数对 SubClass 对象进行初始化, 其构造函数 sub_758() 的伪代码如下图所示:

从上可知, 编译器对 SubClass 类的构造函数进行了优化, 将对父类构造函数的调用优化成了 inline 的形式。 第 16-18 行是对 vtable 指针进行初始化, vtable的结构如下图所示:

执行完 SubClass 类的构造函数后, SubClass 对象的内存结构如下图所示:

下面对 SubClass 对象内存布局进行详细分析(可以与多继承无重写虚函数时的内存结构进行对比):

 3 个父类都定义了虚函数 virtual_1,并且 SubClass 重写了 virtual_1, 因而 3

个父类对应 vtable 中 virtual_1 的值都改为了 SubClass::virtual_1。这样, 当

SubClass 对象指针转为任意父类的指针调用 virtual_1 时,调用的都是SubClass::virtual_1;

 SubClass 重写了 BaseA 和 BaseB 中的虚函数 virtual_2, 因而 BaseA 和 BaseB 对应 vtable 中 virtual_2 的值都改为了 SubClass::virtual_2。

 SubClass 还重写了 BaseC 中的虚函数 baseC_virtual_2,因而 BaseC 对应 vtable 中 baseC_virtual_2 的值改为了SubClass::baseC_virtual_2。这样当 SubClass 对象指针转为 BaseC 类型的指针调用 baseC_virtual_2 时, 调用的就是

SubClass::baseC_vritual_2。 注意, 由于重写的虚函数 baseC_virtual_2 不是第一个父类 BaseA 的虚函数, 所以在 SubClass 类的虚函数列表(位于 BaseA 虚函数列表的后面)中, 还需要按照申明顺序添加SubClass::baseC_virtual_2, 这样, SubClass 对象的指针就可以调用SubClass::baseC_virtual_2 了。

接着分析 main()的伪代码:

第 7 行, **v0 就是 SubClass::virtual_1; (**v0)(v0);对应源码中的((BaseA

*)subClass)->virtual_1();。

第 8 行, *(*(v0 + 8) + 4)得到 BaseB 对应 vtable 中的 SubClass::virtual_2 ,

(*(*(v0 + 8) + 4))(v0 + 8);就是((BaseB *)subClass)->virtual_2();。

第 9 行, **(v0 + 16)得到 BaseC 对应 vtable 中的 SubClass::virtual_1, (**(v0

+ 16))(v0 + 16);就是((BaseC *)subClass)->virtual_1();。

第 10 行 , *(*(v0 + 16) + 4) 得 到 BaseC 对 应 vtable 中 的 SubClass::baseC_virtual_2 , (*(*(v0 + 16) + 4))(v0 + 16); 就 是 ((BaseC

*)subClass)->baseC_virtual_2();

至此, 分析完了 C++ 虚函数实现的基本原理。 对于多重继承的情况,和前面的类似。比如,还有一个类 SubSubClass 继承 SubClass,并重写了虚函数 virtual_1,那 么 将 SubClass 的 vtable 中 所 有 的 SubClass::virtual_1 替 换 为

SubSubClass::virtual_1,得到的结果就是 SubSubClass 的 vtable。

7、总结

本文从 Arm 汇编的角度分析了 Android 中 C++ 虚函数的实现机制。编译时,编译器会为每一个申明有虚函数的类生成一个 vtable, 当对象初始化时,会将 vtable 的地址赋给对象,这样虚函数就可以根据其在 vtable 中的偏移来进行调用。

其中,一个对象所占的内存空间不仅与类的字段有关系,还与类的继承关系有关,对于单继承,一个对象会有一个 vtable 的指针; 如果继承关系中存在多继承, 那么该对象会为每一个多继承的父类保存一个 vtable 的指针。

8、参考

http://blog.csdn.net/haoel/article/details/1948051/

相关文章

  • 从 Arm 汇编看 Android C++虚函数实现原理

    作者:MindStorm 看雪学院 1、前言 C++ 通过虚函数来实现多态, 从而在运行时动态决定要调用的函数。 ...

  • c++ vtable 解析上篇 | 编程知识3

    从汇编指令的角度来看 c++ 虚表的虚函数的调用方式,看虚表​应该如何设计。 1、环境 x86_64-apple-...

  • Swift5.1学习随笔之多态

    多态的实现原理: OC:Runtime C++:虚表(虚函数表) Swift:纯Swift没有Runtime,更加...

  • 深刻剖析之c++博客文章

    三大特性 封装、继承、多态 多态 C++ 虚函数表解析C++多态的实现原理 介绍了类的多态(虚函数和动态/迟绑定)...

  • 3.0 C++远征:虚函数与虚析构函数实现原理

    2-7虚函数与虚析构函数实现原理 [TOC] 1.虚函数的实现原理 (1)引入概念:函数指针。 ​ 指向函数的...

  • C++ 虚函数

    C++ 虚函数 虚函数 基类中使用virtual关键字声明的函数,称为虚函数。虚函数的实现,通过虚函数表来实现的。...

  • Cpp7 C++的多态实现 -- 虚表

    Cpp7 C++的多态实现 -- 虚表 多态的实现原理 总结:1. 当我们在类中定义虚函数时,就会产生虚表2. 多...

  • pwnable.kr之uaf && c++虚函数

    c++的逆向还是要熟悉下。 一、关于c++虚函数 虚函数使得c++能够实现多态,每个类有一个虚表,每个对象在实现的...

  • C++如何实现一个接口类

    原理 C++中,通过类实现面向对象的编程,而在基类中只给出纯虚函数的声明,然后在派生类中实现纯虚函数的具体定义的方...

  • C++多态——虚函数表vtable

    纯Swift类的函数调用原理,类似于C++的虚函数表 纯Swift类的函数调用,类似于C++的虚函数表,是编译时决...

网友评论

    本文标题:从 Arm 汇编看 Android C++虚函数实现原理

    本文链接:https://www.haomeiwen.com/subject/qnprbttx.html