美文网首页
C语言到汇编-入门

C语言到汇编-入门

作者: 故事观察日记 | 来源:发表于2020-04-10 19:50 被阅读0次

上一篇已经得到了C语言入门程序对应的汇编程序。C语言程序:

#include <stdio.h>
int main()
{
    printf("hello,world\n");
}

编译后的汇编程序:

    .file   "hello.c"
    .intel_syntax
    .def    ___main;    .scl    2;  .type   32; .endef
    .section .rdata,"dr"
LC0:
    .ascii "hello,world\12\0"
    .text
.globl _main
    .def    _main;  .scl    2;  .type   32; .endef
_main:
    push    ebp
    mov ebp, esp
    sub esp, 8
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-4], eax
    mov eax, DWORD PTR [ebp-4]
    call    __alloca
    call    ___main
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
    leave
    ret
    .def    _printf;    .scl    2;  .type   32; .endef

先看汇编程序的第一行:

    .file   "hello.c"

好像没见过这写法,什么意思?查资料去……
查资料途中,又看见一种ARM汇编,和上一篇提到的ATT汇编和Intel汇编是什么关系?
原来,ARM和X86是两种不同的CPU架构,在ARM架构的CPU上使用ARM汇编,在X86架构的CPU上使用X86汇编。而X86汇编又有两种语法格式,即ATT格式和Intel格式。(另外ATT汇编语法是跨平台的,还可以在其他架构的CPU上使用,比如Power架构。)
ATT语法中寄存器前面有%,如%eax,在Intel语法中则直接写成eax。(ARM汇编比X86汇编多许多寄存器,并且寄存器用R0、R1……表示。)
现在可以确定上面编译出来的是Intel格式的汇编程序了,再继续看第一行代码:

    .file   "hello.c"

经过查资料得知,这种“.xx”的符号都是汇编器as的指令,汇编器as即上一篇提到的gcc编译工作第3步——将.s文件汇编成.o目标文件——中使用的工具。下面是汇编器as的官方文档地址:
https://sourceware.org/binutils/docs/as/
所有“.xx”指令都能在文档中查到,添加注释如下:

    .file   "hello.c"  /*指示as我们将要启动一个新的逻辑文件。*/
    .intel_syntax  /*使用英特尔汇编程序语法进行汇编。*/
    .def    ___main;    .scl    2;  /*.scl class 设置符号的存储类值。*/   .type   32;  /* .type int 把整数int作为类型属性记录进符号表表项。*/   .endef  /*.def name 开始为符号name定义调试信息;该定义一直扩展到.endef遇到指令为止。*/
    .section .rdata,"dr"  /* .section name[, "flags"] 使用.section命令将后续的代码汇编进一个定名为name的段。可选参数使用了引号,它将被视为该段的标志(flags)。每个标记是单个的字符。d:数据段,r:只读段。*/
LC0:
    .ascii "hello,world\12\0"  /*把汇编好的每个字符串(在字符串末不自动追加零字节)存入连续的地址。*/
    .text  /*通知as把后续语句汇编到编号为0的子段。*/
.globl _main  /*使符号 _main 对连接器ld可见。*/
    .def    _main;  .scl    2;  .type   32; .endef
_main:
    push    ebp
    mov ebp, esp
    sub esp, 8
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-4], eax
    mov eax, DWORD PTR [ebp-4]
    call    __alloca
    call    ___main
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
    leave
    ret
    .def    _printf;    .scl    2;  .type   32; .endef

知道了这些指令的大概意思,现在来看代码主体:

_main:
    push    ebp
    mov ebp, esp
    sub esp, 8
    and esp, -16
    mov eax, 0
    add eax, 15
    add eax, 15
    shr eax, 4
    sal eax, 4
    mov DWORD PTR [ebp-4], eax
    mov eax, DWORD PTR [ebp-4]
    call    __alloca
    call    ___main
    mov DWORD PTR [esp], OFFSET FLAT:LC0
    call    _printf
    leave
    ret

这些汇编指令看起来眼熟多了,ebp和eax这些寄存器是bp、ax寄存器的32位版本,它们的关系类似于ax和al。眼熟归眼熟,但除了知道 “call _printf” 指令是调用 “_printf” 子函数以及 “ret” 指令是结束 “_mian” 函数并返回之外,上面一堆指令的作用是啥?还是不知道。不过看汇编代码只是为了理解C语言的语法,而不是编译原理,所以这些与C语言源代码功能(打印“hello,world”)无关的内容就暂且不管了。
因此就剩下了一行代码:

call    _printf

查了下printf函数的源码以及底层实现原理的东西,发现涉及到的知识还是挺多的,为了防止偏离目标方向太远,就先不研究它了。汇编中向屏幕输出字符串,直接向显存的某行某列写入内容就行了,代码例如:

data segment
db 'hello,world'
data ends

code segment
......
mov ax,0b800h
mov es,ax
mov bx,160*10+40*2  //在屏幕第11行第41列开始写入内容
mov si,0
mov cx,11
s:mov al,[si]
mov es:[bx],al
inc si
inc bx
inc bx
loop s
......
code ends

printf函数最终的实现原理也与之类似,只不过多了格式处理、获取权限等一些步骤。
好了,入门程序就先学到这里,下一篇开始学习C语言变量等内容。

相关文章

网友评论

      本文标题:C语言到汇编-入门

      本文链接:https://www.haomeiwen.com/subject/odpcmhtx.html