美文网首页
runtime源码解析(前传2)--Mach-O格式和runti

runtime源码解析(前传2)--Mach-O格式和runti

作者: Jack_deng | 来源:发表于2018-11-05 14:42 被阅读0次

    在前传1中,我们分析了解了XNU内核所支持的二进制文件格式Mach-O。同时还留了一个小尾巴,就是Mach-O文件中和Objective-C以及runtime相关的Segment section。今天,就来了解一下它们。

    OC之源起

    我们知道,程序的入口点在iOS中被称之为main函数:

    #import <UIKit/UIKit.h>
    #import "AppDelegate.h"
    
    int main(int argc, char * argv[]) {
        @autoreleasepool {
            return UIApplicationMain(argc, argv, nil, NSStringFromClass([AppDelegate class]));
        }
    }
    

    我们所写的所有代码,它的执行的第一步,均是由main函数开始的。

    但其实,在程序进入main函数之前,内核已经为我们的程序加载和运行做了许多的事情。

    当我们设置符号断点_objc_init,可以看到如下调用堆栈信息,这些函数都是在main函数调用前,被系统调用的:


    _objc_init 是Object-C runtime的入口函数,在这里面主要功能是读取Mach-O文件OC对应的Segment seciton,并根据其中的数据代码信息,完成为OC的内存布局,以及初始化runtime相关的数据结构。
    我们可以看到,__objc_init_ 是被__dyld_start_ 所调用起来的,__dyld_start_ 是dyld的bootstrap方法,最终调用到了__objc_init_。
    dyld是苹果的动态加载器,用来加载image(注意这里image不是指图片,而是Mach -O格式的二进制文件)。
    当程序启动时,系统内核首先会加载dyld, 而dyld会将我们APP所依赖的各种库加载到内存空间中,其中就包括libobjc库(OC和runtime), 这些工作,是在APP的main函数执行前完成的。

    _objc_init 方法中,会注册监听来自dlyd的以下事件:

      // Register for unmap first, in case some +load unmaps something
        _dyld_register_func_for_remove_image(&unmap_image);
        dyld_register_image_state_change_handler(dyld_image_state_bound,
                                                 1/*batch*/, &map_2_images);
        dyld_register_image_state_change_handler(dyld_image_state_dependents_initialized, 0/*not batch*/, &load_images);
    

    对应的事件说明:

    • _dyld_register_func_for_remove_image : dyld将image移除内存
    • dyld_image_state_bound :dyld绑定了新的image
    • dyld_image_state_dependents_initialized:image所依赖的各种库都被初始化好了

    由上面代码可以看到,当dyld绑定了新的image之后,runtime会执行map_2_images方法,在这个方法中,libobjc会读取当前所加载的image的Mach-O文件信息,并利用和OC相关的Segment section中的信息,对OC内存空间的各种底层数据结构进行初始化,包括class struct的填充,category绑定到对应class,填充class的method list,protocol list以及property list等。当这一切都做好后,我们就可以在程序中尽情的调用runtime的各种黑魔法啦~ 说到底,所谓的runtime黑魔法,只是基于OC各种底层数据结构上的应用

    所以,要想深入的了解runtime,需要了解OC底层的各种C语言实现,这在后续的章节中会逐步介绍。而OC底层结构的初始化,则是借助于Mach-O文件格式以及dyld。

    对于dyld是如何加载Mach-O文件的,我们这里不做深入介绍,有兴趣可以参见:iOS 程序 main 函数之前发生了什么
    这里,我们重点关注一下Mach-O文件和OC相关的Segment section。

    PS:不要将OC和runtime分开理解,其实在苹果开源代码中,OC和runtime是在一个工程中objc4的。我们平常所用到的OC语言,底层90%都是由C语言加一些汇编代码实现的。比如OC中的NSObject它唯一的实例变量类型Class,对应C语言结构体objc_class。
    而所谓的runtime,则是在OC这些C语言底层实现的数据结构基础上,进行的一些操作,比如交换Selector的实现,只需要交换method
    list的IMP。获取一个对象的说有属性名称,只需要输出对应C语言结构property list即可。

    Mach-O中OC相关的Segment Section

    在上一篇文章中,我们可以看到,在__TEXT段和__DATA段中,都有如下以objc**形式命名的section,这些section,是和OC的内存布局相关的。

    __TEXT & OC

    __TEXT段是程序的不可变常量部分,包括了字符串常量,被const修饰的常量,同时也包括OC相关的一些seciton。

    __objc_classname
    这里面以字符串常量的形式,记录了我们自定义以及所引用的系统class的名称,同时也包括Category, protocol 的名称:
    __objc_methname
    这个seciton中记录了当前APP所调用的方法的名称:
    __objc_methtype
    这个seciton与__objc_methname节对应,记录了method的描述字符串:

    __DATA & OC

    以下内容的结论,大部分来自于五子棋大神的深入理解Macho文件(二)- 消失的__OBJC段与新生的__DATA段,里面涉及到许多的汇编分析,本人对汇编功力欠佳,所以仅能总结下大神的结论。

    __objc_imageinfo

    __objc_imageinfo section 主要用来区分OC的版本1.0 或 2.0,在OC源码中是这样定义的:

    typedef struct {
        uint32_t version; // currently 0
        uint32_t flags;
    } objc_image_info;
    

    version 字段总是为0,而flags字段通过异或的方式,表面需要支持的特性。如是否需要/支持垃圾回收:

    SupportsGC          = 1<<1,  // image supports GC
      RequiresGC          = 1<<2,  // image requires GC
    
    if (ii.flags & (1<<1)) {
        // App wants GC. 
        // Don't return yet because we need to 
        // check the AppleScriptObjC exception.
        wantsGC = YES;
    }
    
    __objc_classlist

    这个section列出了所有的class,包括meta class。
    用MachOView查看该节,是这样的:


    该节中存储的是一个个的指针,指针指向的地址是class结构体所在的地址。class结构体在OC中用结构体objc_class表示。
    struct objc_class : objc_object {
        // Class ISA;
        Class superclass;
        cache_t cache;             // formerly cache pointer and vtable
        class_data_bits_t bits;    // class_rw_t * plus custom rr/alloc flags
    }
    
    __objc_catlist

    该节中存储了OC中定义的Catgory, 存储了一个个指向__objc_category类型的指针。

    struct category_t {
        const char *name;
        classref_t cls;
        struct method_list_t *instanceMethods;
        struct method_list_t *classMethods;
        struct protocol_list_t *protocols;
        struct property_list_t *instanceProperties;
    }
    
    __objc_protolist
    该节中记录了所有的协议。 像上面一样,也是存储了指向protocol_t的指针。
    struct protocol_t : objc_object {
        const char *mangledName;
        struct protocol_list_t *protocols;
        method_list_t *instanceMethods;
        method_list_t *classMethods;
        method_list_t *optionalInstanceMethods;
        method_list_t *optionalClassMethods;
        property_list_t *instanceProperties;
        uint32_t size;   // sizeof(protocol_t)
        uint32_t flags;
        // Fields below this point are not always present on disk.
        const char **extendedMethodTypes;
        const char *_demangledName;
      }
    
    __objc_classrefs
    该节记录了那些class被引用了。因为有些类虽然被打包入APP中,但是在程序中并没有被引用。所以,这里记录了那些类真正的被我们实例化了。(注意,这里的AppDelegate 虽然在程序中没有显示的实例化,但系统似乎将其也标识为被引用的)
    __objc_selrefs
    这节告诉那些SEL对应的字符串被引用了,有系统方法,也有自定义方法:
    __objc_superrefs
    这一个节记录了调用super message的类。比如,在son方法中,我们调用了father的方法,就会将son class记录在这里。同理,在viewDidLoad中调用了super viewDidLoad, 因此view controller class也被记录在这里。

    至于为什么要单独弄出一个section来记录所有调用了super message的类,这应该和[super message]的底层实现相关,说实话,五子棋大神的解释,我没有看懂……

    __objc_const

    这一节用来记录在OC内存初始化过程中的不可变内容。这里所谓的不可变内容并不是我们在程序中所写的const int k = 5这种常量数据(它存在__TEXT的const section中),而是在OC内存布局中不可变得部分,包括但不限于:

    struct class_ro_t {
        uint32_t flags;
        uint32_t instanceStart;
        uint32_t instanceSize;
    #ifdef __LP64__
        uint32_t reserved;
    #endif
    
        const uint8_t * ivarLayout;
    
        const char * name;
        method_list_t * baseMethodList;
        protocol_list_t * baseProtocols;
        const ivar_list_t * ivars;
    
        const uint8_t * weakIvarLayout;
        property_list_t *baseProperties;
    
        method_list_t *baseMethods() const {
            return baseMethodList;
        }
    };
    
    // 方法列表
    // Two bits of entsize are used for fixup markers.
    struct method_list_t : entsize_list_tt<method_t, method_list_t, 0x3> {
        bool isFixedUp() const;
        void setFixedUp();
    
        uint32_t indexOfMethod(const method_t *meth) const {
            uint32_t i = 
                (uint32_t)(((uintptr_t)meth - (uintptr_t)this) / entsize());
            assert(i < count);
            return i;
        }
    };
    // 方法实体
    struct method_t {
        SEL name;
        const char *types;
        IMP imp;
    
        struct SortBySELAddress :
            public std::binary_function<const method_t&,
                                        const method_t&, bool>
        {
            bool operator() (const method_t& lhs,
                             const method_t& rhs)
            { return lhs.name < rhs.name; }
        };
    };
    

    总结

    今天我们了解了Mach-O格式和OC的关系,并大致了解了各个section中的内容。

    当dyld加载我们的APP的时候,会通知OC读取对应seciton的内容,进而完成OC内存数据结构的初始化工作,为之后的程序运行及runtime黑魔法做好了准备。

    注意,上面所说的工作,是在APP的main函数之前就已经结束了的。

    到此为止,关于Mach-O格式,我们已经有了基本的了解了。接下来将会进入我们的正题:理解OC内部的各种数据结构,以及它们是如何被runtime所应用的。

    相关文章

      网友评论

          本文标题:runtime源码解析(前传2)--Mach-O格式和runti

          本文链接:https://www.haomeiwen.com/subject/qzqkxqtx.html