// hello.c
#include <stdio.h>
int main(){
printf("Hello, World\n");
}
为了在系统上运行hello.c程序,每条高级C语言都必须被其他程序转化为一系列的低级机器语言指令。然后这些指令按照一种称为可执行目标程序的格式打好包,并以二进制文件的形式存放起来。目标程序也称为可执行目标文件。
$ gcc -o hello hello.c
$ ./hello
Hello, World
GCC编译器驱动程序读取源程序文件hello.c,并把它翻译成一个可执行目标文件hello。这个翻译的过程分为四个阶段:预处理阶段、编译阶段、汇编阶段和链接阶段,而执行这四个阶段的程序(预处理器、编译器、汇编器和链接器)一起构成了编译系统。
预处理阶段:预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。比如hello.c中的 #include <stdio.h> 命令告诉预处理器读取系统头文件stdio.h的内容,并把它直接插入到程序文本中。结果就得到另一个C程序,通常是以 .i 作为文件扩展名。
编译阶段:编译器(ccl)将文本文件hello.i翻译成文本文件hello.s,它包含一个汇编语言程序。汇编语言程序中的每条语句都以一种标准的文本格式确切地描述了一条低级机器语言指令。汇编语言为不同高级语言的不同编译器提供了通用的输出语言。
汇编阶段:汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序的格式,并将结果保存在目标文件hello.o中。hello.o文件是一个二进制文件,它的字节编码是机器语言指令而不是字符。
链接阶段:hello程序调用了printf函数,它是每个C编译器都会提供的标准C库中的函数。printf函数存在于一个名为printf.o的单独的预编译好的目标文件中,而这个文件必须以某种方式合并到hello.o程序中。链接器(ld)就负责处理这种合并。结果就得到hello文件,它是一个可执行目标文件(或简称为可执行文件),可以被加载到内存中,由系统执行。
外壳(Shell)是一个命令行解释器,它输入一个提示符,等待你输入一个命令行,然后执行这个命令。如果该命令行的第一个单词不是一个内置的外壳命令,那么外壳就会假设这是一个可执行文件的名字,它将加载并运行这个文件。
系统的硬件组成
为了理解运行hello程序时发生了什么,我们需要了解一个典型系统的硬件组织。
一个典型系统的硬件组成总线
贯穿整个系统的是一组电子管道,称做总线,它携带信息字节并负责在各个部件间传递。通常总线被设计成传送定长的字节块,也就是字(word)。字中的字节数(即字长)是一个基本的系统参数,在各个系统中的情况都不尽相同。有的机器字长是4个字节(32位),有的是8个字节(64位)。
I/O设备
输入/输出(I/O)设备是系统与外部世界的联系通道。每个I/O设备都通过一个控制器或适配器与I/O总线相连。控制器是置于I/O设备本身的或者系统的主板上的芯片组,而适配器则是一块插在主板插槽上的卡。不过,它们的功能都是在I/O总线和I/O设备之间传递信息。
主存
主存是一个临时存储设备,在处理器执行程序时,用户存放程序和程序处理的数据。从物理上来说,主存是由一组动态随机存取存储器(DRAM)芯片组成的。从逻辑上来说,存储器是一个线性的字节数组,每个字节都有其唯一的地址(即数组索引),这些地址是从零开始的。一般来说,组成程序的每条机器指令都由不同数量的字节构成。与C程序变量相对应的数据项的大小是根据类型变化的,例如short类型需要2个字节,而double类型需要8个字节等。
处理器
中央处理单元(CPU),简称处理器,是解释(或执行)存储在主存中指令的引擎。处理器的核心是一个字长的存储设备(或寄存器),称为程序计数器(PC)。在任何时刻,PC都指向主存中的某条机器语言指令(即含有该条指令的地址)。
从系统通电开始,直到系统断电,处理器一直在不断地执行程序计数器指向的指令,再更新程序计数器,使其指向下一条指令。处理器是按照一个非常简单的指令执行模型来操作的,这个模型是由指令集结构决定的。在这个模型中,指令按照严格的顺序执行,而执行一条指令包含执行一系列的步骤。处理器从程序计数器(PC)指向的存储器处读取指令,解释指令中的位,执行该指令指示的简单操作,然后更新PC,使其指向下一条指令,而这条指令并不一定与存储器中刚刚执行的指令相邻。
指令指示的简单操作并不多,而且操作都是围绕着主存、寄存器文件(register file)和算术/逻辑单元(ALU)进行的。寄存器文件是一个小的存储设备,由一些1字长的寄存器组成,每个寄存器都有唯一的名字。ALU计算新的数据和地址值。
加载:把一个字节或字从主存复制到寄存器,以覆盖寄存器原来的内容。
存储:把一个字节或字从寄存器复制到主存的某个位置,以覆盖这个位置上原来的内容。
操作:把两个寄存器的内容复制到ALU,ALU对这两个字做算术操作,并将结果存放到一个寄存器中,以覆盖该寄存器中原来的内容。
跳转:从指令本身中抽取一个字,并将这个字复制到程序计数器(PC)中,以覆盖PC中原来的值。
操作系统管理硬件
现在再来看hello程序的运行过程。初始时,外壳程序执行它的指令,等待我们输入一个命令。当我们在键盘上输入字符串“./hello”后,外壳程序将字符逐一读入寄存器,再把它存放到存储器中。
当我们敲回车键时,外壳程序就知道我们已经结束了命令的输入,然后就开始执行一系列指令来加载可执行的hello文件,将hello目标文件中的代码和数据从磁盘复制到主存。利用直接存储器存取(DMA)的技术,数据也可以不通过处理器而直接从磁盘到达主存。
一旦目标文件hello中的代码和数据被加载到主存,处理器就开始执行hello程序的main程序中的机器语言指令。这些指令将“hello, world\n”字符串中的字节从主存复制到寄存器文件,再从寄存器文件中复制到显示设备,最终显示在屏幕上。
当外壳加载和运行hello程序,以及hello程序输出自己的消息时,外壳和hello程序都没有直接访问键盘、显示器、磁盘或者主存。取而代之的是,它们依靠操作系统提供的服务。我们可以把操作系统看作是应用程序和硬件之间插入的一层软件,所有应用程序对硬件的操作都必须通过操作系统。
操作系统有两个基本功能:
- 防止硬件被失控的应用程序滥用。
- 向应用程序提供简单一致的机制来控制复杂而又大相径庭的低级硬件设备。
操作系统通过几个基本的抽象概念来实现这两个功能:进程、虚拟存储器和文件。
操作系统提供的抽象表示进程
进程是操作系统对一个正在运行的程序的一种抽象。在一个系统上可以同时运行多个进程,而每个进程都好像在独立地使用硬件。而并发运行,则是说一个进程的指令和另一个进程的指令是交错执行的。无论是在单核还是多核系统中,一个CPU看上去都像是在并发地执行多个程序,这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制称为上下文切换。
操作系统保持跟踪进程运行所需的所有状态信息。这种状态,也就是上下文,它包括许多信息,例如PC和寄存器文件的当前值,以及主存的内容。在任何一个时刻,单处理器系统都只能执行一个进程的代码。当操作系统决定要把控制权从当前进程转移到某个新进程时,就会进行上下文切换,即保存当前进程的上下文、恢复新进程的上下文,然后将控制权传递到新进程。新进程就会从上次停止的地方开始。
在现代系统中,一个进程实际上可以由多个称为线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的代码和全局数据。多线程之间比多进程之间更容易共享数据,线程一般来说都比进程更高效。
虚拟存储器
虚拟存储器是一个抽象概念,它为每个进程提供了一个假象,即每个进程都在独占地使用主存。每个进程看到的是一致的存储器,称为虚拟地址存储空间。在Linux中,地址空间最上面的区域是为操作系统中的代码和数据保留的,这对所有进程来说都是一样的。地址空间的底部区域存放用户进程定义的代码和数据。
每个进程看到的虚拟地址空间由大量准确定义的区构成,每个区都有专门的功能。从最低的地址开始,逐步向上:
程序代码和数据:对于所有的进程来说,代码是从同一固定位置开始,紧接着的是和C全局变量相对应的数据位置。代码和数据区是直接按照可执行目标文件的内容初始化的,如可执行文件hello。
堆:代码和数据区后紧跟着的是运行时堆。代码和数据区是在进程一开始运行时就被规定了大小,而堆可以在运行时动态地扩展和收缩。
共享库:在地址空间的中间部分是一块用来存放像C标准库和数学库这样共享库的代码和数据的区域。
栈:位于用户虚拟地址空间顶部的是用户栈,编译器用它来实现函数调用。和堆一样,用户栈在程序执行期间可以动态地扩展和收缩。每次调用一个函数时,栈就会增长;从一个函数返回时,栈就会收缩。
内核虚拟存储器:内核总是驻留在内存中,是操作系统的一部分。地址空间顶部的区域是为内核保留的,不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。
虚拟存储器的运作需要硬件和操作系统软件之间精密复杂的交互,包括对处理器生成的每个地址的硬件翻译。其基本思想是把一个进程虚拟存储器的内容存储在磁盘上,然后用主存作为磁盘的高速缓存。
文件
文件就是字节序列。每个I/O设备,包括磁盘、键盘、显示器,甚至网络,都可以视为文件。系统中的所有输入输出都是通过使用一小组称为Unix I/O的系统函数调用读写文件来实现的。
抽象的重要性
抽象的使用是计算机科学中最为重要的概念之一。通过提供不同层次的抽象表示,来隐藏实际实现的复杂性。指令集结构提供了对实际处理器硬件的抽象。使用这个抽象,机器代码程序表现得就好像它是运行在一个一次只能执行一条指令的处理器上。虚拟机是对整个计算机(包括操作系统、处理器和程序)的抽象。
计算机系统提供的抽象
网友评论