程序的机器级表示
程序编码
机器级代码
数据格式
字word表示16位数据类型,32位数为双字double words,64位数为四字quad words。
在64位机器中指针长8字节。
3.3.png
大多说GCC生成的汇编代码指令都有一个字符的后缀,表明操作数的大小。后缀l表示双字,32位被看成是长字long word。后缀l可以表示4字节整数和8字节双精度浮点数,但是并没有
歧义,因为浮点数使用的是一组完全不同的指令和寄存器。
访问信息
x86-64的CPU包含一组16个存储64位值的通用目的寄存器,用来存储整数数据和指针。
操作数指示符
大多数指令有一个或多个操作数,指示出执行一个操作中要 使用的源数据值以及放置结果的目的位置。
不同操作数可能被分为三种类型:
- 立即数,用来表示常数
- 寄存器,表示某个寄存器的内容
- 内存引用,它会根据计算出来的地址访问某个内存位置
数据传送指令
- movb 传送字节
- movw 传送字
- movl 传送双字
- movq 传送四字
- movabsq 传送绝对的四字
MOVZ类中的指令把目的中剩余的字节填充为0,MOVS类中的指令通过符号扩展来填充,把源操作的最高位进行复制。
压入和弹出栈数据
栈指针%rsp保存着栈顶元素的地址
- pushq 将四字压入栈
- popq 将四字弹出栈
将一个四字值压入栈中,首先要将栈指针减8,然后将值写到新的栈顶地址。
弹出一个四字的操作包括从栈顶位置读出数据,然后将栈指针加8。
算数和逻辑操作
3.5.png加载有效地址
加载有效地址load effactive address,leaq,从内存读数据到寄存器,但是实际上它根本没有引用内存,它的第一个操作数看上去是一个内存引用,但该指令并不是从指定的位置读入数据,而是将有效地址写入到目的操作数。
一元和二元操作
一元操作,只有一个操作数,既是源又是目的。这个操作数可以是一个寄存器,也可以是一个内存位置。比如incq(%rsp)会使栈顶的8字节元素加1。
二元操作,第二个操作数既是源又是目的。
移位操作
位移操作,先给出位移量,然后第二项给出的是要移位的数。
特殊的算术操作
16字节的数称为8字oct word。
3.5.5.png控制
机器代码提供基本的低级机制来实现有条件的行为:测试数据值,然后根据测试的结果来改变控制流或者数据流。
jump指令合一改变一组机器代码指令的执行顺序。
条件码
CPU还维护着一组单个位的条件码寄存器,描述最近的算术或逻辑操作的属性,可以检测这些寄存器来执行条件分支指令。常用条件码有:
- CF进位标志,最近的操作使最高位产生了进位,可用来检查无符号操作的溢出。
- ZF零标志,最近的操作得出的结果为0。
- SF符号标志,最近的操作得到的结果为负数。
- OF溢出标志,最近的操作导致一个补码溢出,正溢出或负溢出。
CMP指令根据两个操作数之差来设置条件码,不更新目的寄存器。
访问条件码
条件码通常不会直接读取,通常使用的方法有三种:
- 可以根据条件码的某种组合,将一个字节设置为0或者1。
- 可以条件跳转到程序的某个其他部分。
- 可以有条件的传送数据。
跳转指令
跳转jump指令会导致执行切换到程序中一个全新的位置。
jmp指令是无条件跳转,可以是直接跳转,也可以是间接跳转。
3.6.3.png跳转指令的编码
当执行PC相对寻址时,程序计数器的值是跳转指令后面的那条指令的地址,而不是跳转指令本身的地址。
用条件控制来实现条件分支
用条件传送来实现条件分支
这种方法计算一个条件操作的两种结果,然后再根据条件是否满足从中选取一个。
[图片上传中...(3.6.6.png-60dbbc-1512226556317-0)]
循环
do-while,while,for,汇编中没有相应的指令存在,可以用条件测试和跳转组合起来实现循环的效果。
switch语句
跳转表是一个数组,表项i是一个代码段的地址,这个代码段实现当开关所以in值等于i时程序应该采取的动作。
过程
过程的形式多样:函数function,方法method,子例程subroutine,处理函数handler。
运行时栈
x86-64的栈向低地址方向增长,而栈指针%rsp指向栈顶元素,可以用pushq和popq指令将数据存入栈中或是从栈中取出。
当x86-64过程需要的存储空间超出寄存器能够存放的大小时,就会在栈上分配空间,这部分成为过程的栈帧stack fram。
过程P可以传递最多6反而整数值,也就是指针和整数,但是如果Q需要更多的参数,P可以在调用Q之前在自己的栈帧里存储好这些参数。
转移控制
将控制从函数P转移到Q,只需把程序计数器PC设置为Q的代码的起始位置,当从Q返回的时候,处理器必须记录好它需要继续P的执行的代码的位置,在x86-64机器中,这个信息是用指令call Q调用过程Q来记录的。该指令会把地址A压入栈中,并将PC设置为Q的其实地址,压入的地址A称为返回地址,是紧跟在call指令后面的那条指令的地址。指令ret会从栈中弹出地址A,并把PC设置为A。
call指令有一个目标,指明被调用过程起始的指令地址,调用可以是直接的,也可以是间接的。
数据传送
x86-64中大部分过程间的数据传送是通过寄存器实现的。
3.7.3.png
如果一个函数有大于6个整形参数,超出6个的部分就要通过栈来传递。通过栈传递参数时,所有数据大小都向8的倍数对齐。
栈上的局部存储
有时候局部数据需要放在内存中,常见情况包括:
- 寄存器不足够存放所有的本地数据。
- 对一个局部变量使用地址运算符&,因此必须能够为它产生一个地址。
- 某些局部变量是数组或结构,因此必须能通过数据或结构引用被访问到。
一般来说,过程通过减小栈指针在栈上分配空间。分配的结果作为栈帧的一部分,标号为局部变量。
寄存器中的局部存储空间
寄存器组是唯一被所有过程共享的资源。
递归过程
数组分配和访问
基本原则
指针运算
嵌套的数组
定长数组
变长数组
异质的数据结构
结构
struct,类似于数组的实现,结构中所有组成部分都放在内存中一段连续的区域内,指向结构的指针就是结构第一个字节的地址。
联合
union
数据对齐
在机器级程序中将控制于数据结合起来
内存越界引用和缓冲区溢出
对抗缓冲区溢出攻击
- 栈随机化
- 栈破坏检测
- 限制可执行代码区域
支持变长栈帧
为了管理变长栈帧,x86-64代码使用寄存器%rbp作为帧指针,或者基指针。
网友评论