作者:矢泽久雄[日]
译者:李逢俊
本文为对《程序是怎样跑起来的》一书内容的整理和概括,部分图片,文字摘选自书籍,如有任何侵权行为请联系作者第一时间删除,谢谢。
对程序员来说CPU是什么
CPU的内部结构解析
CPU(Central Processing Unit)职责: 解释和运行转换成机器语言的内容。
程序运行流程示例:
- 用C语言等高级语言编写程序。
- 将程序编译后转换成机器语言的EXE文件。
- 程序运行时,在内存中生成EXE文件的副本。
- CPU解释并执行程序内容。
CPU内部组成:寄存器(20~100个),控制器,运算器,时钟(电流信号相互连通)。
寄存器: 暂存指令,数据等处理对象。
一个CPU内部会有20~100个寄存器。
控制器: 把内存上的指令,数据等读入寄存器,并根据指令的结果来控制整个计算机。
时钟: 发出CPU开始计时的时钟信号(clock puzzle,频率越高CPU运行速度越快)。
CPU和内存是由许多晶体管组成的电子部件,通常称为:IC(Integrated Circuit,集成电路)。
内存(main memory,简称主存):主存通过控制芯片等与CPU相连,主要负责储存指令和数据。储存的内容随计算机的关闭而自动清除。通常使用DRAM(Dynamic Random Access Memory,动态随机存取储存器)芯片。
CPU是寄存器的集合体
程序是把寄存器作为对象来描述的。
- 高级语言:使用类似人类的语言的语法来记叙的编程语言的总和。如BASIC,C,C++,Java,Pascal,FORTRAN等。
- 汇编语言(assembly):采用助记符(memonic)来编写程序,每一个原本是电气信号的机器语言指令都会有一个对应的助记符,助记符常为指令功能的单词,如mov和add分别是数据的储存(move)和相加(addtion)的简写。
- 机器语言:CPU能够直接解释和执行的语言。(数字0和1的集合)
通常,将汇编语言编写的程序转化成机器语言的过程称为汇编;反之,机器语言程序转换成汇编语言程序的过程称为反汇编。
把汇编语言转换成机器语言的程序称为汇编器(assembler)。
把高级语言转换成机器语言的程序称为编译器(compiler)。
/* 汇编语言编写的程序事例 */
mov eax, dword ptr [ebp-8] //把数值从内存复制到exa
add eax, dword ptr [ebp-0Ch] //exa的数值和内存的数值相加
mov dword ptr [ebp-4], exa //把exa的数值(上一次相加的结果)储存在内存中
高级语言编写的程序在编译后转换成机器语言,然后通过CPU内部的寄存器来处理。
寄存器中储存的内容既可以是指令也可以是数据。数据分为“用于运算的数值”和“表示内存地址的数值”。
8种寄存器的主要种类和功能 如下表:
种类 | 功能 |
---|---|
累加寄存器( accumlulator register ) | 储存执行运算后的数据和运算后的数据 |
标志寄存器( flag register ) | 储存运算处理后的CPU状态 |
程序计数器( program counter ) | 储存下一条指令所在的内存的地址 |
基址寄存器( base register ) | 储存数据内存的起始地址 |
变址寄存器( index register ) | 储存基址寄存器的相对地址 |
通用寄存器( general purpose register ) | 储存任意数据 |
指令寄存器( instruction register ) | 储存指令。CPU内部使用,程序员无法通过程序对该寄存器进行读写操作 |
栈寄存器( stack register ) | 储存栈区域的起始地址 |
寄存器数量 | 寄存器种类 |
---|---|
仅有一个 | 程序计数器,标志寄存器,累加寄存器 |
含有多个 | 基址寄存器,变址寄存器,通用寄存器 |
CPU是寄存器的集合体
决定程序流程的程序计数器
实际上一个命令和数据通常被储存在多个地址上,为了方便说明把指令和数据分配到一个地址中。
假设地址0100
为程序开始的位置。Windows等操作系统把程序从硬盘复制到内存后,会将程序计数器设定为0100
,然后程序便开始运行。CPU每执行一条指令,程序计数器自动+1。然后CPU的控制器会参照程序计数器的数值,从内存中读取命令并执行。
条件分支和循环机制
程序的流程分为:
- 顺序执行:执行按照地址内容的顺序执行指令。执行一条指令计数器+1。
- 条件分支:根据条件执行任意地址的指令。计数器跳转到指定地址。
- 循环:重复执行同一地址的指令。
条件分支和循环中使用的跳转指令,会参照当前执行的运算结果来判断是否跳转。无论当前累加寄存器的运算结果是负数,零或正数,标志寄存器都会将其保存。(也负责存放溢出和奇偶校验的结果)。
-
溢出( overflow )是指运算结果超出寄存器的长度范围。
-
奇偶校验( parity check )是指检查运算结果的值是偶数还是奇数。
比较运算的结果储存在标志寄存器的三个位
是否执行跳转指令由CPU在参考标志寄存器的数值后进行判断。运算结果的正负和0三种状态由寄存器的三个字节位(0,1,2)表示。如下图: -
0位:运算结果为正则为1。
-
1位:运算结果为0则为1。
-
2位:运算结果为负则为1。
函数的调用机制
单纯的跳转指令无法实现函数的调用,而是通过把程序计数器的值设定为函数的储存地址来实现。函数的调用需要在完成函数内部的处理后,处理流程再返回到函数的调用点(函数调用指令的下一地址)。因此,如果只是跳转到函数的入口地址,处理流程就不知道该返回到哪了。
函数的调用使用call指令,在将函数的入口地址设定到程序计数器前,call指令会把调用函数后要执行的指令地址储存在名为栈的主存内。函数处理完后,再通过函数的出口来执行return命令(把保存在栈中的地址设定到程序计数器中)。
栈(stack):在程序领域中,栈表示不断储存各种数据的内存区域。函数调用能够返回调用前的地址就是因为栈。
通过地址和索引实现数组
我们用十六进制数将计算机内存上00000000~FFFFFFF
的地址划分出来。
实际查看的内存地址 = 基址寄存器的值 + 变址寄存器的值
例如:要访问10000000~1000FFFF
地址时,把10000000
存入基址寄存器(基址寄存器的值被固定),然后变址寄存器中的值可在00000000~0000FFFF
内变化,变址寄存器中的值,就相当于高级语言程序中数组的索引功能。
(用一个数组名来表示全体数据,通过索引来区分数组的各个数据。如,一个10元素的数组a,数据表示为a[0] ~ a[9],其中的数字0~9就是索引)
CPU处理简述
下表对CPU能执行的机器语言指令进行分类。
类型 | 功能 |
---|---|
数据转送指令 | 寄存器和内存,内存和内存,寄存器和外围设备之间的数据读写操作 |
运算指令 | 用累加寄存器的执行算术运算,逻辑运算,比较运算和移位运算 |
跳转指令 | 实现条件分支,循环,强制跳转等 |
call/return指令 | 函数的调用 / 返回调用前的结果 |
有关计算机二进制对数据进行表示及处理可参考:
明明是悟空 - 二进制的计算(计算机为什么采用补码储存数据)
张晓军 - 计算机中数的表示及运算
汇编
//返还两个参数之和的函数
int AddNum (int a, int b)
{
return a + b;
}
//调用AddNum函数的函数
{
int c;
c = AddNum (123, 456);
}
// 编译上图代码后产生的部分汇编语言,「」部分为伪指令
_TEXT 「segment」 dword public use32 'CODE'
_TEXT 「ends」
_DATA 「segement」 dword public use322 'DATA'
_DATA 「ends」
_BSS 「segment」 dword public use32 'BSS'
_BSS 「ends」
DGROUP 「group」 _BSS,_DATA
_TEXT 「segment」 dword public use32 'CODE'
_AddNum 「proc」 near
_AddNum 「endp」
_MyFunc 「proc」 near
_MyFunc 「endp」
_TEXT 「ends」
「end」
伪指令:负责把程序的构造及汇编的方法指示给汇编器(转换程序)。伪代码本身无法汇编转换成本地代码。
段定义(segment):用来区分或者划定范围区域的意思。
- 汇编语言语言
segment
伪指令表示段定义的启示,ends
表示段定义的结束。 - 段定义是一个连续的内存空间。
上图代码有三个段定义:
-
_TEXT
:指令的段定义 -
_DATA
:被初始化(有初始值)的数据的段定义 -
_BSS
:尚未初始化数据的段定义
伪指令之一 group
:把_BSS
和_DATA
这两个段定义汇总为名为DGROUP
的组。
(注:程序运行过程同时生成栈和堆(代码?))
_AddNum与_MyFunc:
- 两部分代码被
_TEXT segment
和_TEXT ends
所包围,表示它们属于_TEXT这一段定义。因此即便在源代码中指令和数据混杂编写,经过编译或者汇编后,也会转换成段定义划分整齐的本地代码。 - Borland C++规定C语言编写的函数(如AddNum)在内部名称为_AddNum
-
AddNum proc
及_AddNum endp
围起来的部分表示其函数的范围。 - 伪指令
proc
和endp
围起来的部分表示过程(procedure)的范围。相当于C语言函数的形式称为过程。
汇编语言结构汇编语言中,1行表示对CPU的一个指令。
汇编语言的语法结构 操作码+ 操作数
持续更新... ...
网友评论