美文网首页
Read-程序是怎样跑起来的

Read-程序是怎样跑起来的

作者: SouthBegonia | 来源:发表于2018-01-04 12:57 被阅读0次
    程序是怎样跑起来的

    作者:矢泽久雄[日]
    译者:李逢俊

      本文为对《程序是怎样跑起来的》一书内容的整理和概括,部分图片,文字摘选自书籍,如有任何侵权行为请联系作者第一时间删除,谢谢。


    对程序员来说CPU是什么


    CPU的内部结构解析

      CPU(Central Processing Unit)职责: 解释运行转换成机器语言的内容。

    程序运行流程示例:

    1. 用C语言等高级语言编写程序。
    2. 将程序编译后转换成机器语言的EXE文件。
    3. 程序运行时,在内存中生成EXE文件的副本。
    4. CPU解释并执行程序内容。

    CPU内部组成:寄存器(20~100个),控制器,运算器,时钟(电流信号相互连通)。

    寄存器: 暂存指令,数据等处理对象。
            一个CPU内部会有20~100个寄存器。
    控制器: 把内存上的指令,数据等读入寄存器,并根据指令的结果来控制整个计算机。
    时钟:   发出CPU开始计时的时钟信号(clock puzzle,频率越高CPU运行速度越快)。
    

        CPU内存是由许多晶体管组成的电子部件,通常称为:IC(Integrated Circuit,集成电路)。
        内存(main memory,简称主存):主存通过控制芯片等与CPU相连,主要负责储存指令数据。储存的内容随计算机的关闭而自动清除。通常使用DRAM(Dynamic Random Access Memory,动态随机存取储存器)芯片。

    CPU是寄存器的集合体

    程序是把寄存器作为对象来描述的。

    • 高级语言:使用类似人类的语言的语法来记叙的编程语言的总和。如BASIC,C,C++,Java,Pascal,FORTRAN等。
    • 汇编语言(assembly):采用助记符(memonic)来编写程序,每一个原本是电气信号的机器语言指令都会有一个对应的助记符,助记符常为指令功能的单词,如mov和add分别是数据的储存(move)和相加(addtion)的简写。
    • 机器语言:CPU能够直接解释和执行的语言。(数字0和1的集合)

        通常,将汇编语言编写的程序转化成机器语言的过程称为汇编;反之,机器语言程序转换成汇编语言程序的过程称为反汇编
        把汇编语言转换成机器语言的程序称为汇编器(assembler)。
        把高级语言转换成机器语言的程序称为编译器(compiler)。

    /* 汇编语言编写的程序事例  */
    mov eax, dword ptr [ebp-8]          //把数值从内存复制到exa
    add eax, dword ptr [ebp-0Ch]        //exa的数值和内存的数值相加
    mov dword ptr [ebp-4], exa          //把exa的数值(上一次相加的结果)储存在内存中
    

        高级语言编写的程序在编译后转换成机器语言,然后通过CPU内部的寄存器来处理。
        寄存器中储存的内容既可以是指令也可以是数据。数据分为“用于运算的数值”“表示内存地址的数值”
         8种寄存器的主要种类和功能 如下表:

    种类 功能
    累加寄存器( accumlulator register ) 储存执行运算后的数据和运算后的数据
    标志寄存器( flag register ) 储存运算处理后的CPU状态
    程序计数器( program counter ) 储存下一条指令所在的内存的地址
    基址寄存器( base register ) 储存数据内存的起始地址
    变址寄存器( index register ) 储存基址寄存器的相对地址
    通用寄存器( general purpose register ) 储存任意数据
    指令寄存器( instruction register ) 储存指令。CPU内部使用,程序员无法通过程序对该寄存器进行读写操作
    栈寄存器( stack register ) 储存栈区域的起始地址
    寄存器数量 寄存器种类
    仅有一个 程序计数器,标志寄存器,累加寄存器
    含有多个 基址寄存器,变址寄存器,通用寄存器

    CPU是寄存器的集合体

    决定程序流程的程序计数器

        实际上一个命令和数据通常被储存在多个地址上,为了方便说明把指令和数据分配到一个地址中。
        假设地址0100为程序开始的位置。Windows等操作系统把程序从硬盘复制到内存后,会将程序计数器设定为0100,然后程序便开始运行。CPU每执行一条指令,程序计数器自动+1。然后CPU的控制器会参照程序计数器的数值,从内存中读取命令执行

    条件分支和循环机制

    程序的流程分为:

    • 顺序执行:执行按照地址内容的顺序执行指令。执行一条指令计数器+1。
    • 条件分支:根据条件执行任意地址的指令。计数器跳转到指定地址。
    • 循环:重复执行同一地址的指令。

        条件分支和循环中使用的跳转指令,会参照当前执行的运算结果来判断是否跳转。无论当前累加寄存器的运算结果是负数,零或正数,标志寄存器都会将其保存。(也负责存放溢出和奇偶校验的结果)。

    • 溢出( overflow )是指运算结果超出寄存器的长度范围。

    • 奇偶校验( parity check )是指检查运算结果的值是偶数还是奇数。
      是否执行跳转指令由CPU在参考标志寄存器的数值后进行判断。运算结果的正负和0三种状态由寄存器的三个字节位(0,1,2)表示。如下图:

      比较运算的结果储存在标志寄存器的三个位
    • 0位:运算结果为正则为1。

    • 1位:运算结果为0则为1。

    • 2位:运算结果为负则为1。

    函数的调用机制

        单纯的跳转指令无法实现函数的调用,而是通过把程序计数器的值设定为函数的储存地址来实现。函数的调用需要在完成函数内部的处理后,处理流程再返回到函数的调用点(函数调用指令的下一地址)。因此,如果只是跳转到函数的入口地址,处理流程就不知道该返回到哪了。
        函数的调用使用call指令,在将函数的入口地址设定到程序计数器前,call指令会把调用函数后要执行的指令地址储存在名为的主存内。函数处理完后,再通过函数的出口来执行return命令(把保存在栈中的地址设定到程序计数器中)。

    栈(stack):在程序领域中,栈表示不断储存各种数据的内存区域。函数调用能够返回调用前的地址就是因为栈。

    通过地址和索引实现数组

        我们用十六进制数将计算机内存上00000000~FFFFFFF的地址划分出来。

    实际查看的内存地址 = 基址寄存器的值 + 变址寄存器的值

        例如:要访问10000000~1000FFFF地址时,把10000000存入基址寄存器(基址寄存器的值被固定),然后变址寄存器中的值可在00000000~0000FFFF内变化,变址寄存器中的值,就相当于高级语言程序中数组的索引功能
        (用一个数组名来表示全体数据,通过索引来区分数组的各个数据。如,一个10元素的数组a,数据表示为a[0] ~ a[9],其中的数字0~9就是索引)

    CPU处理简述

        下表对CPU能执行的机器语言指令进行分类。

    类型 功能
    数据转送指令 寄存器和内存,内存和内存,寄存器和外围设备之间的数据读写操作
    运算指令 用累加寄存器的执行算术运算,逻辑运算,比较运算和移位运算
    跳转指令 实现条件分支,循环,强制跳转等
    call/return指令 函数的调用 / 返回调用前的结果

    有关计算机二进制对数据进行表示及处理可参考:
    明明是悟空 - 二进制的计算(计算机为什么采用补码储存数据)
    张晓军 - 计算机中数的表示及运算


    汇编

    //返还两个参数之和的函数
    int AddNum (int a, int b)
    {
        return a + b;
    }
    
    //调用AddNum函数的函数 
    {
        int c;
        c = AddNum (123, 456);
    }
    
    
    // 编译上图代码后产生的部分汇编语言,「」部分为伪指令
    _TEXT 「segment」 dword public use32 'CODE'
    _TEXT 「ends」
    _DATA 「segement」 dword public use322 'DATA'
    _DATA 「ends」
    _BSS 「segment」 dword public use32 'BSS'
    _BSS 「ends」
    DGROUP 「group」  _BSS,_DATA
    
    _TEXT 「segment」 dword public use32 'CODE'
    
    _AddNum    「proc」    near
    _AddNum    「endp」
    
    _MyFunc   「proc」  near
    _MyFunc   「endp」
    
    _TEXT  「ends」
           「end」
    

    伪指令:负责把程序的构造及汇编的方法指示给汇编器(转换程序)。伪代码本身无法汇编转换成本地代码。

    段定义(segment):用来区分或者划定范围区域的意思。

    • 汇编语言语言segment伪指令表示段定义的启示,ends表示段定义的结束。
    • 段定义是一个连续的内存空间。

    上图代码有三个段定义:

    • _TEXT:指令的段定义
    • _DATA:被初始化(有初始值)的数据的段定义
    • _BSS:尚未初始化数据的段定义

    伪指令之一 group:把_BSS_DATA这两个段定义汇总为名为DGROUP的组。

    (注:程序运行过程同时生成栈和堆(代码?))

    _AddNum与_MyFunc:

    • 两部分代码被_TEXT segment_TEXT ends 所包围,表示它们属于_TEXT这一段定义。因此即便在源代码中指令和数据混杂编写,经过编译或者汇编后,也会转换成段定义划分整齐的本地代码
    • Borland C++规定C语言编写的函数(如AddNum)在内部名称为_AddNum
    • AddNum proc_AddNum endp 围起来的部分表示其函数的范围。
    • 伪指令procendp围起来的部分表示过程(procedure)的范围。相当于C语言函数的形式称为过程。

    汇编语言中,1行表示对CPU的一个指令。
    汇编语言的语法结构 操作码+ 操作数

    汇编语言结构

    持续更新... ...

    相关文章

      网友评论

          本文标题:Read-程序是怎样跑起来的

          本文链接:https://www.haomeiwen.com/subject/gslrnxtx.html