计算机是由硬件和软件系统组成的。本章的内容主要讲述一个hello程序的生命周期:从被程序员创建开始,到在系统上运行,输出简单的消息,最后终止。hello.c程序如下所示:
#include <stdio.h>
int main()
{
printf("hello, word\n");
return 0;
}
1.1 信息就是位+上下文
hello程序的生命周期从一个源程序(源文件)开始,即程序员通过编辑器创建并保存的文件。源程序实际上就是一个由0和1组成的位(又称为比特)序列,8个为被组织成一组,称为字节。每个字节表示程序中的某些文本字符。
大部分的线代计算机系统都是用ASCII标准来表示文本字符,这种方式实际上就是用一个唯一的单字节大小的整数值来表示每个字符。
hello.c程序是以字节序列的方式存储在文件中的,每一个字节都有一个整数值,对应于某些字符。像hello.c这样只有ASCII字符构成的文件被称为文本文件,其他所有文件都被称为二进制文件。
系统中的所有信息,包括磁盘文件、内存中的程序、内存中存放的用户数据以及网络上传送的数据,都是由一串比特表示的。区分不同数据对象的唯一方法是我们读到这些数据对象时的上下文。也就是说,信息=比特位+上下文。
1.2 程序编译
hello程序的生命周期从一个能够被人读懂的高级C语言程序开始,为了在系统上运行hello.c,程序中的每条C语句都必须被转化为一系列的低级机器语言指令。然后这些指令会被打包成可执行目标程序,并以二进制磁盘文件的形式存储。编译过程由编译器驱动程序完成,主要分为四个阶段:预处理器、编译器、汇编器和链接器。
- 预处理阶段。预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。该步骤会读取头文件中的内容,并将其插入程序文本中,得到以.i作为扩展名的另一个C程序。
- 编译阶段。编译器(ccl)将文本文件hello.i翻译成文本文件hello.s的汇编语言程序。汇编语言为不同高级语言的不同编译器提供了通用的输出语言。例如,C编译器和Fortran编译器输出文件用的都是一样的汇编语言。
- 汇编阶段。汇编器(as)将hello.s翻译成机器语言指令,并把这些指令打包为一种叫做可重定位目标程序的格式,保存在hello.o中。hello.o是一个二进制文件,包含的是函数main的指令编码,如果在文本编辑器中打开它,看到的将是一堆乱码。
- 链接阶段。hello程序调用了printf函数,这是C标准库中的一个函数,被存放在一个已经预编译好了的目标文件中。链接器(ld)的作用是要将这个目标文件以某种方式合并到hello文件中,得到一个可执行目标文件,使其可以被加载到内从中执行。
了解编译系统如何工作是大有益处的,这可以帮住我们:
1. 优化程序性能。例如:while循环比for循环有效吗?一个switch语句是否总比一系列if-else高效?等等。
2. 理解链接时出现的错误。静态变量和全局变量的区别是什么?静态库和动态库的区别是什么?
3. 避免安全漏洞。避免缓冲区溢出。理解数据与控制信息存储在程序栈上的方式会引起的后果。
1.3 处理器读取并解释存储在内存中的指令
1.3.1 系统的硬件组成
1. 总线
总线是一组贯穿整个系统的电子管道,它携带信息字节,并负责在各个部件之间传递。通常,总线被设计成传送定长的字节快,也就是字(word)。字中的字节数(即字长)依据系统的不同而不同,目前大多数机器的字长要么是4个字节(32位),要么是8个字节(64位)。
2. I/O设备
I/O(输入/输出)设备是系统与外部世界的联系通道。包括作为用户输入的键盘鼠标,作为用户输出的显示器,以及用于长期存储数据和程序的磁盘驱动器(简单来说就是磁盘)。每个I/O设备都通过一个控制器或者适配器与I/O总线相连。控制器与适配器的区别主要在于装配方式。控制器是I/O设备本身或者系统的主板上的芯片组,而适配器则是一块插在主板插槽上的卡。它们的功能是在I/O总线与I/O设备之间传递信息。
3. 主存
主存是一个临时的存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。物理上说,主存是由一组动态随机存取存储器(DRAM)芯片组成的。逻辑上说,存储器是一个线性的字节数组,每个字节都有唯一的地址(数组索引),这些地址是从零开始的。
4. 处理器
中央处理单元(CPU),即处理器,是解释(或执行)存储在主存中指令的引擎。其核心是一个大小为一个字长的寄存器,称为程序计数器(PC)。在任一时刻,PC都指向主存中的某条机器语言指令。从系统通电开始,直到系统端电,处理器一直不断地执行程序计数器指向的指令,再更新程序计数器,使其指向下一条指令。这个执行模型由指令集架构决定。执行操作主要围绕主存、寄存器文件和算数/逻辑单元(ALU)进行。其中寄存器文件是一个小的存储设备,由一些单字长的寄存器组成,每个寄存器都有唯一的名字。ALU负责计算新的数据和地址值。主要操作有如下几种:
- 加载:从主存复制一个字节或者一个字到寄存器,以覆盖寄存器原来的内容。
- 存储:从寄存器复制一个字节或者一个字到主存的某个位置,以覆盖这个位置上原来的内容。
- 操作:把两个寄存器的内容复制到ALU,ALU对这两个字做算术运算,并将结果放到一个寄存器中,以覆盖该寄存器中原来的内容。
- 跳转:从指令本身中抽取一个字,并将这个字复制到程序计数器(PC)中,以覆盖PC中原来的值。
1.3.2 运行hello程序
程序执行分为如下几个步骤:
1. 从键盘读取hello命令
在Unix系统中运行可执行文件,需要将文件名输入到命令行解释程序 shell中。初始时,shell程序等待我们输入一个命令,当在键盘上输入字符串“./hello”后,shell程序将字符逐一读入寄存器,再把它放到内存中。如图1.4所示:
注:shell是一个命令行解释器,它输出一个提示符,等待输入一个命令行,然后执行这个命令。如果该命令行的第一个单词不是一个内置的shell命令,那么shell就假设这是一个可执行文件的名字,它会加载并运行这个文件。
2. 从磁盘加载可执行文件到主存
当我们在键盘上敲击回车键时,shell程序就知道我们已经结束了命令的输入,然后shell会执行一些列指令来加载可执行的hello文件,这些指令将hello目标文件中的代码和数据从磁盘上复制到主存中。
3. 将输出字符串从存储器写到显示器
一旦目标程序被加载到主存中,处理器就开始执行hello程序中的机器语言指令。这些指令将“hello, word\n”字符串中的字节从主存复制到寄存器文件中,再从寄存器文件中复制到显示设备,最终显示在屏幕上。
图1.6 将输出字符串从存储器写到显示器
1.4 高速缓存与存储设备的层次结构
1. 高速缓存
根据机械原理,较大的存储设备要比较小的存储设备运行得慢,而快速设备的造价远高于同类的低速设备。例如,一个典型的寄存器文件只能存储几百字节的信息,而主存里可以存储几十亿字节的信息。然而,处理器从寄存器读取数据比从主存中读取数据几乎快100倍。这种处理器与主存之间的差距还在持续增大,加快处理器的运行速度比加快主存的运行速度要快得多和便宜得多。
针对处理器与主存之间的差异,系统设计者采用了更小更快的存储设备,称为高速缓存存储器(cache memory,简称为cache或高速缓存)作为暂时的集结区域,存放处理器近期可能会需要的信息。典型的系统中的高速缓存存储器如图1.7所示。
L1高速缓存容量较大,访问速度集合和访问寄存器文件一样快。L2高速缓存比L1高速缓存容量更大些,而进程访问L2高速缓存比访问L1高速缓存的时间长5倍,但仍然比访问主存的时间快5到10倍。L1高速缓存和L2高速缓存由静态随机访问存储器(SRAM)实现。通过这个样的层次组合,系统就可以获得一个很大的存储器,同时访问速度也很快。原因是利用了高速缓存的局部性原理,即程序具有访问局部区域内的数据和代码的趋势。通过让高速缓存存放可能经常访问的数据,大部分的内存操作都能在快速的高速缓存中完成。
2. 存储器的层次结构
在处理器和一个较大较慢的存储设备之间插入一个较小较快的存储设备,是一种非常有效的提速手段。现有的计算机系统也被组织成了这种存储器层次结构,如图1.8所示。在这个层次结构中,从上至下,设备的速度越来越慢,但是容量越来越大,单位字节的造价也越来越便宜。在这个存储器结构中,上一层的存储器作为低一层存储器的高速缓存。
1.5 操作系统管理硬件
像hello word或者shell这类应用程序,都没有直接访问显示器、键盘、磁盘或者主存,它们依靠操作系统提供的服务来控制这些设备。操作系统可以看做是应用程序和硬件之间的一层软件,所有应用对于硬件的访问都要通过操作系统。操作系统的基本功能包括:
- 防止硬件被失控的应用程序滥用。
- 向应用程序提供简单一致的机制,来控制复杂而又通常大不相同的低级硬件设备。
操作系统通过几个基本的抽象概念来实现上述两种功能:进程、虚拟内存和文件。其中,文件是对I/O设备的抽象表示,虚拟内存是对主存和磁盘I/O设备的抽象表示,进程是对处理器、主存和I/O设备的抽象表示。
1.5.1 进程与线程
进程是操作系统对一个正在运行的程序的一种抽象。在一个系统上,可以同时运行多个进程,这些进程都好像在独占整个系统的资源,这是通过处理器在进程之间来回切换实现的。操作系统将这种交错执行的机制称为上下文切换。操作系统保持跟踪进程运行所需要的所有状态信息,这种状态信息就叫上下文,包括PC和寄存器文件的当前值以及主存的内容等等。任一时刻,单个处理器系统只能执行一个进程的代码,当操作系统决定把控制器从当前进程转到某个其他进程时,会进行上下文切换。也就是保存当前进程的上下文,回复新进程的上下文,然后将控制器传递到新进程,新进程就会从它上次停止的地方开始执行。
从一个进程到另一个进程的转换是由操作系统内核管理的,内核是操作系统代码常驻内存的部分。应用程序通过系统调用(system call)指令执行需要操作系统执行的某些操作。
一个进程可以包含多个执行单元,被称为线程。每个线程都运行在进程的上下文中,它们共享该进程的代码和全局数据,比进程效率更高。
1.5.2 虚拟内存
虚拟内存是一个抽象概念,它为每个进程共了一个假象,即每个进程都独占地使用主存。每个进程看到的内存都是一致的,成为虚拟地址空间。主要部分如下图所示:
- 程序代码和数据
- 堆
- 共享库
- 栈
- 内核虚拟内存
1.5.3 文件
文件就是字节序列。每个I/O设备,包括磁盘、键盘、显示器,都可以看成是文件。文件这个简单而精致的概念非常强大,它为应用程序提供了一个统一的视图,来看待系统中可能含有的各种类型的I/O设备。系统中的所有输入输出都是通过一组成为Unix I/O的系统函数调用读写文件来实现的。
网络也可以被看做是一个I/O设备,当系统从主存复制一串字节数据到网络适配器时,数据经过网络到达另一台计算机,而不是到达本地磁盘。相应的,系统也可以读取其他机器发送过来的数据,并复制到自己的主存。如今,从一台主机复制信息到另一台主机已经成为了计算机系统最重要的用途之一。比如,电子邮件、即时通讯等等。
1.6 重要主题
系统是硬件和系统软件互相交织的集合体,它们必须协同合作以实现运行应用程序的最终目的。接下来我们会强调几个贯穿计算机系统所有方面的重要概念。
1. Amdahl定律
Amdahl定律的思想是:当我们对系统的某个部分加速时,其对系统整体性能的影响,取决于该部分的重要程度与加速程度。公式如下,其中a
代表该部分所需执行时间占总执行时间的比例,k
代表该部分性能提升的比例:
可见,要想显著加速整个系统,必须提升全系统中相当大部分的速度。
2. 并发和并行
并发是指一个同时具有多个活动的系统;而并行指的是用并发来使一个系统运行的更快。按照系统的抽象层次,由高到低可以分为三个层次的并发:
- 线程级并发
- 指令集并发
- 单指令、多数据并行
3. 计算机系统中的抽象 - 文件 是对I/O设备的抽象。
- 虚拟内存 是对程序存储器的抽象。
- 进程 是对一个正在运行的程序的抽象。
- 虚拟机 是对整个计算机的抽象,包括操作系统、处理器和程序。
网友评论