函数汇编原理（x86_64）

作者: 某某香肠 | 来源:发表于2018-12-31 16:20 被阅读0次

函数汇编原理（x86_64）
Swift十 (一: 多态汇编原理? 二: final函数三
Linux boot的第一步：启动汇编调用main函数
汇编代码——函数调用原理
iOS常用命令行
Nasm编译器及简单使用方法1
程序调用过程和堆栈的关系,为什么要传地址而不传值
【macOS技巧】Apple Silicon M1安装Homeb
汇编学习（5），函数，栈帧
7.汇编-汇编中的函数

本文研究的是x86_64处理器下的函数汇编，但总的来说，不同的架构，其原理都是相通的，只是指令集不一样而已。

从最简单的函数说起

首先建立一个空函数，如下：

void func1(){ }

int main(int argc, const char * argv[]) {
    func1();
    return 0;
}

在func1的断点处，其汇编指令为：

0x100000fa6 <+22>: callq  0x100000f80               ; func1 at main.cpp:11

callq指令会使程序跳到0x100000f80的地址中执行,也就是func1。除此之外，该指令还会将当前函数的下一条指令入栈。

而在func1内部，其实现指令为:

0x100000f80 <+0>: pushq  %rbp
0x100000f81 <+1>: movq   %rsp, %rbp
0x100000f84 <+4>: popq   %rbp
x100000f85 <+5>: retq

其中retq指令就是func1函数的推出操作，它会让将保存在栈顶的地址出栈，使程序跳到上一个函数的下一条汇编指令上运行。

而rbp用来存放函数的栈底地址，而rsp则存放栈顶地址，因为进入了新的函数，因此rbp需要更新，而上一个函数的栈低还需要保存起来，因此就需要让rbp的地址进栈。

实际上，不仅是rbp寄存器，一些通用的寄存器的当前值都是需要保存起来的。

待返回值的函数

在func1中加一下一段：

int func1(){
    return 1;
}

对应的汇编代码为：

0x100000f80 <+0>:  pushq  %rbp
0x100000f81 <+1>:  movq   %rsp, %rbp
0x100000f84 <+4>:  movl   $0x1, -0x4(%rbp)
0x100000f8b <+11>: movl   -0x4(%rbp), %eax
0x100000f8e <+14>: popq   %rbp
0x100000f8f <+15>: retq

跟上一份代码相比，多了中间两行，其中eax寄存器就是用于存放返回�值的，供外界读取。对每于一个架构，其用于返回的寄存器可能是不一样的。

函数调用函数

然后，尝试在func1中调用一个空函数：

int func1(){
    int i = 1;
    func2();
    return i;
}

对应的汇编代码如下：

0x100000f70 <+0>:  pushq  %rbp
0x100000f71 <+1>:  movq   %rsp, %rbp
0x100000f74 <+4>:  subq   $0x10, %rsp
0x100000f78 <+8>:  movl   $0x1, -0x4(%rbp)
0x100000f7f <+15>: callq  0x100000f60               ; func2 at main.cpp:11
0x100000f84 <+20>: movl   -0x4(%rbp), %eax
0x100000f87 <+23>: addq   $0x10, %rsp
0x100000f8b <+27>: popq   %rbp
0x100000f8c <+28>: retq

比起上面的代码，又多了rsp的移动（第三行和第七行），在第三行，sp会往下移16位（栈是向下生长的），这个时候，sp和bp之间的区域就是这个函数的栈帧，主要用于保存这个函数执行过程中产生的局部变量。而在第七行对其进行复原，产生的局部变量就再也不被访问到了。

而在前面几个代码中，sp之所以不移动，是因为内部没有调用函数，不需要额外设置栈帧来保护函数区域。

带形参的函数

将func1改成带形参的函数：

int func1(int a){
    return a;
}

int main(int argc, const char * argv[]) {
    int c = func1(1);
    return 0;
}

func1的汇编代码如下：

0x100000f70 <+0>:  pushq  %rbp
0x100000f71 <+1>:  movq   %rsp, %rbp
0x100000f74 <+4>:  movl   %edi, -0x4(%rbp)
0x100000f77 <+7>:  movl   -0x4(%rbp), %eax
0x100000f7e <+14>: popq   %rbp
0x100000f7f <+15>: retq

可以看出，如果是一个形参的话，数值存放到了edi寄存器里面。大部分CPU都有专门存放形参的寄存器，如果传入的参数多余寄存器的数目，则形参会传入栈中。

本文分析的是x86_64下的函数汇编指令，对于arm64位的函数汇编指令可以参考这篇文章