美文网首页我用 Linux技术文
main函数执行前后 《程序员的自我修养》·笔记

main函数执行前后 《程序员的自我修养》·笔记

作者: popsheng | 来源:发表于2015-08-24 13:02 被阅读1396次

    【前言】main函数执行前后的宏观过程(C++)

    • linux系统下压板程序的入口是"_start",这个函数是linux系统库(Glibc)的一部分,当我们的程序和Glibc链接在一起形成最终的可执行文件的之后,这个函数就是程序执行初始化的入口函数。
    • 程序初始化部分完成一系列初始化过程之后,会调用main函数来执行程序的主体。在main函数执行完成以后,再返回到初始化部分,进行一些清理工作,然后结束进程。
    • 对C++而言:(ELF文件为其定义了两个特殊的段)
      • .init 该段保存的是可执行的命令,它构成了进程的初始化代码。因此,当一个程序开始运行的时候,在main函数被调用之前,Glibc的初始化部分安排执行这个段中的代码
      • .fini 该段保存着进程终止命令代码。因此,当一个程序的main函数正常退出的时候,Glibc会安排执行这个段中的代码。
    • 这两个段的存在有特别的目的,如果一个函数放到.init段,在mai函数执行前系统就会执行它(就是因为它在这个段)。同理,如果一个函数放到.fini段,在main函数返回后该函数就会被执行。利用这两个特性,C++实现了全局构造和析构函数。

    一个典型程序的大致运行步骤

    • 操作系统创建进程后,把控制权交到了程序入口,这个入口往往是程序运行库中的某个入口函数。
    • 入口函数对运行库和程序运行环境进行初始化,包括堆、I/O、线程、全局变量的构造等等。
    • 入口函数在完成初始化之后,调用main函数,正式开始执行函数主体部分。
    • main函数执行完毕之后,返回到入口函数,入口函数进行清理工作,包括全局变量析构、堆销毁、关闭I/O等,然后进行系统调用结束进程。

    入口函数的实现

    • Glibc的入口函数
      • _start函数
          该入口是由ld链接器默认的链接脚本指定的,当然用户也可以通过参数进行设定。_start由汇编代码实现。大致用如下伪代码表示:
    void _start()
    {
      %ebp = 0;
      int argc = pop from stack
      char ** argv = top of stack;
      __libc_start_main(main, argc, argv, __libc_csu_init, __linc_csu_fini,
      edx, top of stack);
    }
    
    具体过程可以参见下图:
    

      在调用_start之前,装载器就会将用户的参数和环境变量压入栈中,如图所示,栈顶元素是argc,接着就是argv和环境变量的数组。
      其中argv除了指向参数表外,还隐含紧接着环境变量表。这个环境变量表要在__libc_start_main里从argv内提取出来
      实际执行代码的是__libc_start_main。
    - __libc_start_main函数
        - 函数头
    ```
    int __libc_start_main(
            int (*main)(int, char **, char *),
            char * __unbounded *__unbounded ubp_av,
            __typeof(main) init,
            void (*fini)(void),
            void (*rtld_fini)(void),
            viud *__unbounded stack_end)
    
          可以啊看出,一共有7个参数,其中main由第一个参数传入,紧接着就是argc和argv(这里叫做ubp_av,应为其中还包括了环境变量表)。此外的3个函数指针:
        (1)init:main调用之前的初始化工作;
        (2)fini:main结束之后的收尾工作;
        (3)rtld_fini:和动态加载有关的收尾工作。
        最后的stack_end标明了栈底的位置,即最高的栈地址。
            - \__libc_start_main代码中的一个特殊的宏(宏INIT_ARGV_and_ENVIRON)
            宏展开之后如下:
            `char **ubp_rv = &ubp_av[argc+1];`
            `__environ = ubo_ev;`
            `__libc_stack_end = stack_end;`
              上述代码实际上就是从_start源代码分析得到的栈布局,重点是让_environ指针指向紧跟子啊argv数组后面的环境变量数组。如下图:
            ![](http://7xl3j2.com1.z0.glb.clouddn.com/cxy-21.png)
            - __libc_start_main代码中的一系列重要的函数
            ```
              __pthread_initialize_minimal();
            __cxa_atexit(rtld_fini, NULL, NULL);
            __libc_init_first(argc, argv, __environ);
            __cxa_atexit(fini, NULL, NULL);
            (*init)(argc, argv, __environ);
    
            - __cxa_atexit函数是glibc的内部函数,等同于atexit,在main之后调用。
            - 所以可以看出,参数传入的fini和rtld_fini均是用于main结束之后调用的。在\__libc_start_main末尾,关键是如下两行的代码:
            `result = main(argc, argv, _environ);`
            `exit(result);`
            main函数最终被调用,并退出。
            【补充】程序正常结束有两种情况:main函数正常返回;程序中exit()退出。但是在\__libc_start_main中可以看出,即使main正常返回了,exit还是会被调用。所以说exit()是程序退出的必经之路。

    相关文章

      网友评论

        本文标题:main函数执行前后 《程序员的自我修养》·笔记

        本文链接:https://www.haomeiwen.com/subject/kxzfcttx.html