美文网首页
hello world的底层原理

hello world的底层原理

作者: tracy_668 | 来源:发表于2018-12-01 16:28 被阅读14次

    hello world是我们学习一门语言的第一个程序,一直很好奇这个程序底层到底是怎么执行起来的呢?今天就让我们一探究竟:

    #include<stdio.h>
    int main()
    {
      printf("hellow world \n");
    } 
    

    编译链接: gcc hello.c,生成了a.out文件,

     gcc hello.c 
    wusong@ubuntu:~/cTest/hellotest$ ls
    a.out  hello.c
    

    查看a.out, 使用objdump -h a.out

     objdump -h a.out
    
    a.out:     file format elf64-x86-64
    
    Sections:
    Idx Name          Size      VMA               LMA               File off  Algn
      0 .interp       0000001c  0000000000400238  0000000000400238  00000238  2**0
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      1 .note.ABI-tag 00000020  0000000000400254  0000000000400254  00000254  2**2
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      2 .note.gnu.build-id 00000024  0000000000400274  0000000000400274  00000274  2**2
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      3 .gnu.hash     0000001c  0000000000400298  0000000000400298  00000298  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      4 .dynsym       00000060  00000000004002b8  00000000004002b8  000002b8  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      5 .dynstr       0000003d  0000000000400318  0000000000400318  00000318  2**0
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      6 .gnu.version  00000008  0000000000400356  0000000000400356  00000356  2**1
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      7 .gnu.version_r 00000020  0000000000400360  0000000000400360  00000360  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      8 .rela.dyn     00000018  0000000000400380  0000000000400380  00000380  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
      9 .rela.plt     00000030  0000000000400398  0000000000400398  00000398  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
     10 .init         0000001a  00000000004003c8  00000000004003c8  000003c8  2**2
                      CONTENTS, ALLOC, LOAD, READONLY, CODE
     11 .plt          00000030  00000000004003f0  00000000004003f0  000003f0  2**4
                      CONTENTS, ALLOC, LOAD, READONLY, CODE
     12 .plt.got      00000008  0000000000400420  0000000000400420  00000420  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, CODE
     13 .text         00000192  0000000000400430  0000000000400430  00000430  2**4
                      CONTENTS, ALLOC, LOAD, READONLY, CODE
     14 .fini         00000009  00000000004005c4  00000000004005c4  000005c4  2**2
                      CONTENTS, ALLOC, LOAD, READONLY, CODE
     15 .rodata       00000011  00000000004005d0  00000000004005d0  000005d0  2**2
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
     16 .eh_frame_hdr 00000034  00000000004005e4  00000000004005e4  000005e4  2**2
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
     17 .eh_frame     000000f4  0000000000400618  0000000000400618  00000618  2**3
                      CONTENTS, ALLOC, LOAD, READONLY, DATA
     18 .init_array   00000008  0000000000600e10  0000000000600e10  00000e10  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     19 .fini_array   00000008  0000000000600e18  0000000000600e18  00000e18  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     20 .jcr          00000008  0000000000600e20  0000000000600e20  00000e20  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     21 .dynamic      000001d0  0000000000600e28  0000000000600e28  00000e28  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     22 .got          00000008  0000000000600ff8  0000000000600ff8  00000ff8  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     23 .got.plt      00000028  0000000000601000  0000000000601000  00001000  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     24 .data         00000010  0000000000601028  0000000000601028  00001028  2**3
                      CONTENTS, ALLOC, LOAD, DATA
     25 .bss          00000008  0000000000601038  0000000000601038  00001038  2**0
                      ALLOC
     26 .comment      00000035  0000000000000000  0000000000000000  00001038  2**0
                      CONTENTS, READONLY
    

    可以看到目标文件格式是分类存储的,分成了很多段,从左到右,第一列(Idx Name)是段的名字,第二列(Size)是大小 ,LMA表示装载内存地址,VMA表示虚拟内存地址,File off是文件内的偏移。

    基础知识

    从你写的源代码到执行你的程序,一般经历了这几个过程:
    源代码编辑 -> 编译 -> 链接 -> 装载 -> 执行编译,简单说就是用编译工具,将你的源码,变成可以执行的二进制代码,也叫做目标文件,当然只是对应某一种硬件平台,比如此处我用的是Intel的X86系列的CPU,编译出来的,就是针对X86的二进制代码。链接就是将多个目标文件合并为一个目标文件,称作可执行文件。 在上面的可执行文件中有很多section,最常见和基础的段有:

    “text”段:代码段,就是CPU要运行的指令代码。
    
    “data”段:数据段,保存了源代码中的数据,一般是以初始化的数据。
    
    “bss”段:也是数据段,存放那些未初始化的数据,因为这些数据还未分配空间,所以单独存放。
    

    段一般可以分为loadable和allocatable, loadable,可加载,就是,原先目标文件里面包含对应的代码或数据,所以,装载器要把这些内容,load到对应的地址,以便程序可以运行;而allocatable,可分配的,最简单理解就是上面提到的.bss段,那里记录了变量名,到时候,你要给这些变量名分配内存空间。

    • LMA:(Load Memory Address) the address at which the section will be loaded.内存装载地址表示把程序(经历过,由你的源码,通过编译器的编译,链接器的链接,形成的那个可执行文件,详细点说就是,把其中的.text代码段,.data数据段等内容)从硬盘装载到内存的哪个位置。这里问一句,为什么要搬到内存呢? 程序运行的本质,就是CPU读取到指令,然后执行。这里就涉及到,如果想要你的程序运行,首先,你应该把对应的指令,放到合适的地方,CPU 才能读到,才能执行。此处合适的地方,有人想到,直接放到硬盘这里,CPU过来读取,然后执行不就可以了吗,还不用这么麻烦地将(指令)代码搬来搬去的,多省事。但是实际上,系统就是这么“笨”地搬来搬去,原因在于,从硬盘上直接读取指令,速度比直接从内存,一般PC 上是各种类型的RAM,比如DDR,此处统称为Memory/内存,要慢很多倍,所以,系统才会不嫌弃麻烦,把代码拷贝到内存里面去,然后从内存里面读取指令,然后执行,这样效率会高很多。
    • VMA, (Virtual Memory Address):the address the section will have when the output file is run;那啥是虚拟内存地址呢?简单说就是,你程序运行时候的所对应的地址。此处所谓的虚拟,一般来说,指的是启用了MMU之后,才有了虚拟地址和实地址。此处,我们可以简单的理解为,就是内存的实际地址即可。程序运行前,要把程序的内容,拷贝到对应的内存地址处,然后才能运行的。因此,一句话总结就是:代码要运行的时候,此时对应的地址,就是VMA。在多数情况下,LMA和VMA是相等的.LMA和VMA不一样。而其中最常见的一种情况就是,程序被放到ROM中,比如设置为只读的Nor Flash中,也就是LMA的地址是Nor Flash的地址,此如随便举例为0x10000000,而程序要运行时候的地址是内存地址,比如0x30000000,也就是VMA 是0x30000000,这时候,就要我们自己保证,在程序运行之前,把自己的程序,从LMA=0x10000000拷贝到VMA=0x3000000处,然后程序才可以正常运行。有人会问,反正对于ROM来说,CPU 也是可以直接从ROM里面读取代码,然后运行的。为何还要前面提到的,弄个LMA 和VMA不同,搬来搬去的呢?因为ROM,顾名思义,是只读的,只能读取,不能写入的。而程序中的代码段,由于只是被读取,不涉及到修改写入,是没有问题的。但是对于数据段和bss位初始化段来说,里面的所有的程序的变量,多数都是在运行的时候,不仅要读取,而且要被修改成新的值,然后写入新的值的,所以,如果还是放到ROM里面,就没法修改写入了。而且,另一个原因是,CPU从ROM,比如常见的Nor Flash中读取代码的速度,要远远小于从RAM,比如常见的SDRAM,中读取的速度,所以,才会牵扯到将代码烧写到ROM里面,然后代码的最开始,将此部分程序reaload,重载,也就是从此处的ROM的地址,即LMA,重新拷贝到SDRAM中去,也就是VMA的地方,然后从那里运行。
    链接器和装载器的作用
    链接器
    1. 将LMA写到(可执行的)二进制文件里面去
    2. 解析符号。将不同的符号,根据符号表中的信息,转换为对应的地址,这里只涉及VMA,即程序运行时的地址。
    Loader,装载器
    1. 从二进制文件中读出对应的段的信息,比如text,data,bss等段的信息,将内容拷贝到对应的LMA的地址处。
    2. 如果发现VMA!=LMA, 即 程序运行时候的地址,和刚刚把程序内容拷贝到的地址LMA,两者不一样,
      那么就要把对应的内容,此处主要是data,数据段的内容,从刚刚装载到的位置,LMA处,拷贝到VMA处.这样,程序运行的时候,才能够在执行的时候,找到对应的VMA处的变量,才能找到对应的值,程序才能正常运行。

    最后再看看.text段到底是存了什么东西呢?objdump -s a.out (-s 表示查看目标文件十六进制格式)

    ......
    Contents of section .fini:
     4005c4 4883ec08 4883c408 c3                 H...H....       
    Contents of section .rodata:
     4005d0 01000200 68656c6c 6f20776f 726c6420  ....hello world 
     4005e0 00  
    ......                  
    

    貌似我们能看懂的也就是rodata只读数据段中的hello,world,那我们反汇编看下,objdump -d a.out , 它输出文件的汇编形式,下面列出主要的main函数部分,其实在main函数执行前后,有很多工作要做,比如初始化函数执行环境等。

    0000000000400526 <main>:
     400526:       55                      push   %rbp
     400527:       48 89 e5                mov    %rsp,%rbp
     40052a:       48 83 ec 10             sub    $0x10,%rsp
     40052e:       c7 45 fc 05 00 00 00    movl   $0x5,-0x4(%rbp)
     400535:       bf d4 05 40 00          mov    $0x4005d4,%edi
     40053a:       e8 c1 fe ff ff          callq  400400 <puts@plt>
     40053f:       b8 00 00 00 00          mov    $0x0,%eax
     400544:       c9                      leaveq
     400545:       c3                      retq
     400546:       66 2e 0f 1f 84 00 00    nopw   %cs:0x0(%rax,%rax,1)
     40054d:       00 00 00
    

    左边是十六进制形式,右边是汇编形式,至于汇编代码,这里不赘述。

    相关文章

      网友评论

          本文标题:hello world的底层原理

          本文链接:https://www.haomeiwen.com/subject/vdxrcqtx.html