自己动手制作C 语言编译器（2）：虚拟机

作者: Python编程导师 | 来源:发表于2019-01-12 18:08 被阅读5次

自己动手制作C 语言编译器（2）：虚拟机
自己动手制作C 语言编译器（9）：总结
自己动手制作C 语言编译器（1）：设计
自己动手制作C 语言编译器（0）：前言
自己动手制作C 语言编译器（7）：语句
自己动手制作C 语言编译器（4）：递归下降
自己动手制作C 语言编译器（5）：变量定义
自己动手制作C 语言编译器（6）：函数定义
自己动手制作C 语言编译器（8）：表达式
自己动手制作C 语言编译器（3）：词法分析器

本章我们要构建一台虚拟的电脑，设计我们自己的指令集，运行我们的指令集，说得通俗一点就是自己实现一套汇编语言。它们将作为我们的编译器最终输出的目标代码。

计算机的内部工作原理

我们关心计算机的三个基本部件：CPU、寄存器及内存。代码（汇编指令）以二进制的形式保存在内存中，CPU 从中一条条地加载指令执行。程序运行的状态保存在寄存器中。

内存

我们从内存开始说起。现代的操作系统都不直接使用内存，而是使用虚拟内存。虚拟内存可以理解为一种映射，在我们的程序眼中，我们可以使用全部的内存地址，而操作系统需要将它映射到实际的内存上。当然，这些并不重要，重要的是一般而言，进程的内存会被分成几个段：

1.代码段（text）用于存放代码（指令）。

2.数据段（data）用于存放初始化了的数据，如int i = 10;，就需要存放到数据段中。

3.未初始化数据段（bss）用于存放未初始化的数据，如int i[1000];，因为不关心其中的真正数值，所以单独存放可以节省空间，减少程序的体积。

4.栈（stack）用于处理函数调用相关的数据，如调用帧（calling frame）或是函数的局部变量等。

5.堆（heap）用于为程序动态分配内存。

它们在内存中的位置类似于下图：

推荐C语言编程学习交流群：941636044，大量学习资料免费下载！

但我们的虚拟机并不模拟完整的计算机，我们只关心三个内容：代码段、数据段以及栈。其中的数据段我们只存放字符串，因为我们的编译器并不支持初始化变量，因此我们也不需要未初始化数据段。理论上我们的虚拟器需要维护自己的堆用于内存分配，但实际实现上较为复杂且与编译无关，故我们引入一个指令MSET，使我们能直接使用编译器（解释器）中的内存。

综上，我们需要首先在全局添加如下代码：

int *text,            // text segment

     *old_text,        // for dump text segment

     *stack;           // stack

char *data;           // data segment

注意这里的类型，虽然是int型，但理解起来应该作为无符号的整型，因为我们会在代码段（text）中存放如指针/内存地址的数据，它们就是无符号的。其中数据段（data）由于只存放字符串，所以是char *型的

接着，在main函数中加入初始化代码，真正为其分配内存：

int main() {

    close(fd);

    ...

    // allocate memory for virtual machine

    if (!(text = old_text = malloc(poolsize))) {

        printf("could not malloc(%d) for text area\n", poolsize);

        return -1;

    }

    if (!(data = malloc(poolsize))) {

        printf("could not malloc(%d) for data area\n", poolsize);

        return -1;

    }

    if (!(stack = malloc(poolsize))) {

        printf("could not malloc(%d) for stack area\n", poolsize);

        return -1;

    }

    memset(text, 0, poolsize);

    memset(data, 0, poolsize);

    memset(stack, 0, poolsize);

    ...

    program();

寄存器

计算机中的寄存器用于存放计算机的运行状态，真正的计算机中有许多不同种类的寄存器，但我们的虚拟机中只使用 4 个寄存器，分别如下：

1.PC程序计数器，它存放的是一个内存地址，该地址中存放着下一条要执行的计算机指令。

2.SP指针寄存器，永远指向当前的栈顶。注意的是由于栈是位于高地址并向低地址增长的，所以入栈时SP的值减小。

3.BP基址指针。也是用于指向栈的某些位置，在调用函数时会使用到它。

4.AX通用寄存器，我们的虚拟机中，它用于存放一条指令执行后的结果。

要理解这些寄存器的作用，需要去理解程序运行中会有哪些状态。而这些寄存器只是用于保存这些状态的。

在全局中加入如下定义：

int *pc, *bp, *sp, ax, cycle; // virtual machine registers

在main函数中加入初始化代码，注意的是PC在初始应指向目标代码中的main函数，但我们还没有写任何编译相关的代码，因此先不处理。代码如下：

memset(stack, 0, poolsize);

...

bp = sp = (int *)((int)stack + poolsize);

ax = 0;

...

program();

与 CPU 相关的是指令集，我们将专门作为一个小节。

指令集

指令集是 CPU 能识别的命令的集合，也可以说是 CPU 能理解的语言。这里我们要为我们的虚拟机构建自己的指令集。它们基于 x86 的指令集，但要更为简单。

首先在全局变量中加入一个枚举类型，这是我们要支持的全部指令：

// instructions

enum { LEA ,IMM ,JMP ,CALL,JZ  ,JNZ ,ENT ,ADJ ,LEV ,LI  ,LC  ,SI  ,SC  ,PUSH,

       OR  ,XOR ,AND ,EQ  ,NE  ,LT  ,GT  ,LE  ,GE  ,SHL ,SHR ,ADD ,SUB ,MUL ,DIV ,MOD ,

       OPEN,READ,CLOS,PRTF,MALC,MSET,MCMP,EXIT };

这些指令的顺序安排是有意的，稍后你会看到，带有参数的指令在前，没有参数的指令在后。这种顺序的唯一作用就是在打印调试信息时更加方便。但我们讲解的顺序并不依据它。

MOV

MOV是所有指令中最基础的一个，它用于将数据放进寄存器或内存地址，有点类似于 C 语言中的赋值语句。x86 的MOV指令有两个参数，分别是源地址和目标地址：MOV dest, source（Intel 风格），表示将source的内容放在dest中，它们可以是一个数、寄存器或是一个内存地址。

一方面，我们的虚拟机只有一个寄存器，另一方面，识别这些参数的类型（是数还是地址）是比较困难的，因此我们将MOV指令拆分成 5 个指令，这些指令只接受一个参数，如下：

1.IMM <num>将<num>放入寄存器ax中。

2.LC将对应地址中的字符载入ax中，要求ax中存放地址。

3.LI将对应地址中的整数载入ax中，要求ax中存放地址。

4.SC将ax中的数据作为字符存放入地址中，要求栈顶存放地址。

5.SI将ax中的数据作为整数存放入地址中，要求栈顶存放地址。

你可能会觉得将一个指令变成了许多指令，整个系统就变得复杂了，但实际情况并非如此。首先是MOV指令其实有许多变种，根据类型的不同有MOVB,MOVW等指令，我们这里的LC/SC和LI/SI就是对应字符型和整型的存取操作。

但最为重要的是，通过将MOV指令拆分成这些指令，只有IMM需要有参数，且不需要判断类型，所以大大简化了实现的难度。

在eval()函数中加入下列代码：

void eval() {

    int op, *tmp;

    while (1) {

        if (op == IMM)       {ax = *pc++;}                                     // load immediate value to ax

        else if (op == LC)   {ax = *(char *)ax;}                               // load character to ax, address in ax

        else if (op == LI)   {ax = *(int *)ax;}                                // load integer to ax, address in ax

        else if (op == SC)   {ax = *(char *)*sp++ = ax;}                       // save character to address, value in ax, address on stack

        else if (op == SI)   {*(int *)*sp++ = ax;}                             // save integer to address, value in ax, address on stack

    }

    ...

    return 0;

}

其中的*sp++的作用是退栈，相当于POP操作。

这里要解释的一点是，为什么SI/SC指令中，地址存放在栈中，而LI/LC中，地址存放在ax中？原因是默认计算的结果是存放在ax中的，而地址通常是需要通过计算获得，所以执行LI/LC时直接从ax取值会更高效。另一点是我们的PUSH指令只能将ax的值放到栈上，而不能以值作为参数，详细见下文。

PUSH

在 x86 中，PUSH的作用是将值或寄存器，而在我们的虚拟机中，它的作用是将ax的值放入栈中。这样做的主要原因是为了简化虚拟机的实现，并且我们也只有一个寄存器ax。代码如下：

else if (op == PUSH) {*--sp = ax;} // push the value of ax onto the stack

JMP

JMP <addr>是跳转指令，无条件地将当前的PC寄存器设置为指定的<addr>，实现如下：

else if (op == JMP) {pc = (int *)*pc;} // jump to the address

要记得，pc寄存器指向的是下一条指令。所以此时它存放的是JMP指令的参数，即<addr>的值。

JZ/JNZ

为了实现if语句，我们需要条件判断相关的指令。这里我们只实现两个最简单的条件判断，即结果（ax）为零或不为零情况下的跳转。

实现如下：

else if (op == JZ) {pc = ax ? pc + 1 : (int *)*pc;} // jump if ax is zero

else if (op == JNZ) {pc = ax ? (int *)*pc : pc + 1;} // jump if ax is zero

子函数调用

这是汇编中最难理解的部分，所以合在一起说，要引入的命令有CALL,ENT,ADJ及LEV。

首先我们介绍CALL <addr>与RET指令，CALL的作用是跳转到地址为<addr>的子函数，RET则用于从子函数中返回。

为什么不能直接使用JMP指令呢？原因是当我们从子函数中返回时，程序需要回到跳转之前的地方继续运行，这就需要事先将这个位置信息存储起来。反过来，子函数要返回时，就需要获取并恢复这个信息。因此实际中我们将PC保存在栈中。如下：

else if (op == CALL) {*--sp = (int)(pc+1); pc = (int *)*pc;} // call subroutine

//else if (op == RET) {pc = (int *)*sp++;} // return from subroutine;

这里我们把RET相关的内容注释了，是因为之后我们将用LEV指令来代替它。

在实际调用函数时，不仅要考虑函数的地址，还要考虑如何传递参数和如何返回结果。这里我们约定，如果子函数有返回结果，那么就在返回时保存在ax中，它可以是一个值，也可以是一个地址。那么参数的传递呢？

各种编程语言关于如何调用子函数有不同的约定，例如 C 语言的调用标准是：

1.由调用者将参数入栈。

2.调用结束时，由调用者将参数出栈。

3.参数逆序入栈。

事先声明一下，我们的编译器参数是顺序入栈的，下面的例子（C 语言调用标准）取自维基百科：

int callee(int, int, int);

int caller(void)

{

int i, ret;

ret = callee(1, 2, 3);

ret += 5;

return ret;

}

会生成如下的 x86 汇编代码：

caller:

; make new call frame

push    ebp

mov     ebp, esp

        sub     1, esp       ; save stack for variable: i

; push call arguments

push    3

push    2

push    1

; call subroutine 'callee'

call    callee

; remove arguments from frame

add     esp, 12

; use subroutine result

add     eax, 5

; restore old call frame

        mov     esp, ebp

pop     ebp

; return

ret

上面这段代码在我们自己的虚拟机里会有几个问题：

push ebp，但我们的PUSH指令并无法指定寄存器。

mov ebp, esp，我们的MOV指令同样功能不足。

add esp, 12，也是一样的问题（尽管我们还没定义）。

也就是说由于我们的指令过于简单（如只能操作ax寄存器），所以用上面提到的指令，我们连函数调用都无法实现。而我们又不希望扩充现有指令的功能，因为这样实现起来就会变得复杂，因此我们采用的方法是增加指令集。毕竟我们不是真正的计算机，增加指令会消耗许多资源（钱）。

ENT

ENT <size>指的是enter，用于实现 ‘make new call frame’ 的功能，即保存当前的栈指针，同时在栈上保留一定的空间，用以存放局部变量。对应的汇编代码为：

; make new call frame

push    ebp

mov     ebp, esp

       sub     1, esp       ; save stack for variable: i

实现如下：

else if (op == ENT) {*--sp = (int)bp; bp = sp; sp = sp - *pc++;} // make new stack frame

ADJ

ADJ <size>用于实现 ‘remove arguments from frame’。在将调用子函数时压入栈中的数据清除，本质上是因为我们的ADD指令功能有限。对应的汇编代码为：

; remove arguments from frame

add esp, 12

实现如下：

else if (op == ADJ) {sp = sp + *pc++;} // add esp, <size>

LEV

本质上这个指令并不是必需的，只是我们的指令集中并没有POP指令。并且三条指令写来比较麻烦且浪费空间，所以用一个指令代替。对应的汇编指令为：

; restore old call frame

mov esp, ebp

pop ebp

; return

ret

具体的实现如下：

else if (op == LEV) {sp = bp; bp = (int *)*sp++; pc = (int *)*sp++;} // restore call frame and PC

注意的是，LEV已经把RET的功能包含了，所以我们不再需要RET指令。

LEA

上面的一些指令解决了调用帧的问题，但还有一个问题是如何在子函数中获得传入的参数。这里我们首先要了解的是当参数调用时，栈中的调用帧是什么样的。我们依旧用上面的例子（只是现在用“顺序”调用参数）：

sub_function(arg1, arg2, arg3);

|    ....       | high address

+---------------+

| arg: 1        |    new_bp + 4

+---------------+

| arg: 2        |    new_bp + 3

+---------------+

| arg: 3        |    new_bp + 2

+---------------+

|return address |    new_bp + 1

+---------------+

| old BP        | <- new BP

+---------------+

| local var 1   |    new_bp - 1

+---------------+

| local var 2   |    new_bp - 2

+---------------+

|    ....       |  low address

所以为了获取第一个参数，我们需要得到new_bp + 4，但就如上面的说，我们的ADD指令无法操作除ax外的寄存器，所以我们提供了一个新的指令：LEA <offset>

实现如下：

else if (op == LEA) {ax = (int)(bp + *pc++);} // load address for arguments.

以上就是我们为了实现函数调用需要的指令了。

运算符指令

我们为 C 语言中支持的运算符都提供对应汇编指令。每个运算符都是二元的，即有两个参数，第一个参数放在栈顶，第二个参数放在ax中。这个顺序要特别注意。因为像-，/之类的运算符是与参数顺序有关的。计算后会将栈顶的参数退栈，结果存放在寄存器ax中。因此计算结束后，两个参数都无法取得了（汇编的意义上，存在内存地址上就另当别论）。

实现如下：

else if (op == OR)  ax = *sp++ | ax;

else if (op == XOR) ax = *sp++ ^ ax;

else if (op == AND) ax = *sp++ & ax;

else if (op == EQ)  ax = *sp++ == ax;

else if (op == NE)  ax = *sp++ != ax;

else if (op == LT)  ax = *sp++ < ax;

else if (op == LE)  ax = *sp++ <= ax;

else if (op == GT)  ax = *sp++ >  ax;

else if (op == GE)  ax = *sp++ >= ax;

else if (op == SHL) ax = *sp++ << ax;

else if (op == SHR) ax = *sp++ >> ax;

else if (op == ADD) ax = *sp++ + ax;

else if (op == SUB) ax = *sp++ - ax;

else if (op == MUL) ax = *sp++ * ax;

else if (op == DIV) ax = *sp++ / ax;

else if (op == MOD) ax = *sp++ % ax;

内置函数

程序要有用，除了核心的逻辑外还需要输入输出，如 C 语言中我们经常使用的printf函数就是用于输出。但是printf函数的实现本身就十分复杂，如果我们的编译器要达到自举，就势必要实现printf之类的函数，但它又与编译器没有太大的联系，因此我们继续实现新的指令，从虚拟机的角度予以支持。

编译器中我们需要用到的函数有：exit,open,close,read,printf,malloc,memset及memcmp。代码如下：

else if (op == EXIT) { printf("exit(%d)", *sp); return *sp;}

else if (op == OPEN) { ax = open((char *)sp[1], sp[0]); }

else if (op == CLOS) { ax = close(*sp);}

else if (op == READ) { ax = read(sp[2], (char *)sp[1], *sp); }

else if (op == PRTF) { tmp = sp + pc[1]; ax = printf((char *)tmp[-1], tmp[-2], tmp[-3], tmp[-4], tmp[-5], tmp[-6]); }

else if (op == MALC) { ax = (int)malloc(*sp);}

else if (op == MSET) { ax = (int)memset((char *)sp[2], sp[1], *sp);}

else if (op == MCMP) { ax = memcmp((char *)sp[2], (char *)sp[1], *sp);}

这里的原理是，我们的电脑上已经有了这些函数的实现，因此编译编译器时，这些函数的二进制代码就被编译进了我们的编译器，因此在我们的编译器/虚拟机上运行我们提供的这些指令时，这些函数就是可用的。换句话说就是不需要我们自己去实现了。

最后再加上一个错误判断：

else {

printf("unknown instruction:%d\n", op);

return -1;

}

测试

下面我们用我们的汇编写一小段程序，来计算10+20，在main函数中加入下列代码：

int main(int argc, char *argv[])

{

    ax = 0;

    ...

    i = 0;

    text[i++] = IMM;

    text[i++] = 10;

    text[i++] = PUSH;

    text[i++] = IMM;

    text[i++] = 20;

    text[i++] = ADD;

    text[i++] = PUSH;

    text[i++] = EXIT;

    pc = text;

    ...

    program();

}

编译程序gcc xc-tutor.c，运行程序：./a.out hello.c。输出

exit(30)

注意我们的之前的程序需要指令一个源文件，只是现在还用不着，但从结果可以看出，我们的虚拟机还是工作良好的。

小结

本章中我们回顾了计算机的内部运行原理，并仿照 x86 汇编指令设计并实现了我们自己的指令集。

实际计算机中，添加一个新的指令需要设计许多新的电路，会增加许多的成本，但我们的需要机中，新的指令几乎不消耗资源，因此我们可以利用这一点，用更多的指令来完成更多的功能，从而简化具体的实现。如果想一起交流的可以加这个群：941636044 ，有什么问题可以群里面交流，群里面也有一些方便学习C语言C++编程的资料可以给你利用。

自己动手制作C 语言编译器（2）：虚拟机
本章我们要构建一台虚拟的电脑，设计我们自己的指令集，运行我们的指令集，说得通俗一点就是自己实现一套汇编语言。它们将...
自己动手制作C 语言编译器（9）：总结
恭喜你完成了自己的 C 语言编译器，本章中我们发一发牢骚，说一说编写编译器值得注意的一些问题；编写编译器时遇到的一...
自己动手制作C 语言编译器（1）：设计
这篇文章我们要从整体上讲解如何设计我们的 C 语言编译器。本系列：首先要说明的是，虽然标题是编译器，但实际上我...
自己动手制作C 语言编译器（0）：前言
“手把手教你构建 C 语言编译器” 这一系列教程将带你从头编写一个 C 语言的编译器。希望通过这个系列，我们能对编...
自己动手制作C 语言编译器（7）：语句
整个编译器还剩下最后两个部分：语句和表达式的解析。它们的内容比较多，主要涉及如何将语句和表达式编译成汇编代码。这章...
自己动手制作C 语言编译器（4）：递归下降
本章我们将讲解递归下降的方法，并用它完成一个基本的四则运算的语法分析器。什么是递归下降传统上，编写语法分析器有...
自己动手制作C 语言编译器（5）：变量定义
本章中我们用 EBNF 来大致描述我们实现的 C 语言的文法，并实现其中解析变量定义部分。由于语法分析本身比较复...
自己动手制作C 语言编译器（6）：函数定义
由于语法分析本身比较复杂，所以我们将它拆分成 3 个部分进行讲解，分别是：变量定义、函数定义、表达式。本章讲解函数...
自己动手制作C 语言编译器（8）：表达式
这是整个编译器的最后一部分，解析表达式。什么是表达式？表达式是将各种语言要素的一个组合，用来求值。例如：函数调用、...
自己动手制作C 语言编译器（3）：词法分析器
本章我们要讲解如何构建词法分析器。什么是词法分析器简而言之，词法分析器用于对源码字符串做预处理，以减少语法分析...

自己动手制作C 语言编译器（2）：虚拟机

计算机的内部工作原理

内存

寄存器

指令集

MOV

PUSH

JMP

JZ/JNZ

子函数调用

ENT

ADJ

LEV

LEA

运算符指令

内置函数

测试

小结

相关文章

自己动手制作C 语言编译器（2）：虚拟机

自己动手制作C 语言编译器（9）：总结

自己动手制作C 语言编译器（1）：设计

自己动手制作C 语言编译器（0）：前言

自己动手制作C 语言编译器（7）：语句

自己动手制作C 语言编译器（4）：递归下降

自己动手制作C 语言编译器（5）：变量定义

自己动手制作C 语言编译器（6）：函数定义

自己动手制作C 语言编译器（8）：表达式

自己动手制作C 语言编译器（3）：词法分析器

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

C/C++知识点