美文网首页
详解 Mach-O 文件结构

详解 Mach-O 文件结构

作者: 云霄_云霄 | 来源:发表于2021-06-09 20:46 被阅读0次

    前言

    在学习iOS逆向的过程中,发现在解密可执行文件 dumpdecrypted 砸壳原理时需要用到 Mach-O 相关知识,在动态库注入过程中也需要理解 Mach-O 可执行文件的文件结构,那么有必要系统学习记录 Mach-O 文件的组成结构。

    什么是 Mach-O

    Mach-O,是 Mach object 文件格式的缩写,是一种可执行文件、目标代码、共享程序库、动态加载代码和核心 dump 。是 a.out 格式的一种替代。 Mach-O 提供更多的可扩展性和更快的符号表信息存取。Mach-O 应用在基于 Mach 核心的系统上,目前 NeXTSTEP、Darwin、Mac OS X(iPhone)都是使用这种可执行文件格式。熟悉 Mach-O 文件格式,有助于了解苹果底层软件运行机制,更好的掌握 dyld 加载 Mach-O 的步骤,为自己动手开发 Mach-O 相关的加解密工具注入工具打下基础。

    属于 MachO 格式的常见文件

    • 目标文件.o
    • 库文件
      • .a
      • .dylib
      • Framework
    • 可执行文件
    • dyld
    • .dsym

    通用二进制文件(Universal binary)

    • 苹果公司提出的一种程序代码。能同时适用多种架构的二进制文件

    • 同一个程序包中同时为多种架构提供最理想的性能

    • 因为需要储存多种代码,通用二进制应用程序通常比单一平台二进制的程序要大,但是由于两种架构有共同的非执行资源(代码以外的),所以并不会达到单一版本的两倍之多

    • 而且由于执行中只调用一部分代码,运行起来也不需要额外的内存

    lipo 命令的使用

    • 使用lifo -info 可以查看MachO文件包含的架构 ($lipo -info MachO文件)
    • 使用lifo –thin 拆分某种架构 ($lipo MachO文件 –thin 架构 –output 输出文件路径)
    • 使用lipo -create 合并多种架构 ($lipo -create MachO1 MachO2 -output 输出文件路径)

    Mach-O 文件结构

    image.png

    Mach-O 的组成结构如图所示

    • Mach-O 头部(Mach Header),包含该二进制文件的一般信息
      • 字节顺序、架构类型、加载指令的数量等
      • 使得可以快速确认一些信息,比如当前文件用于32位还是64位,对应的处理器是什么、文件类型是什么
    • 加载命令(Load commands),一张包含很多内容的表,内容包括区域的位置、符号表、动态符号表等
    • Data 通常是对象文件中最大的部分,包含Segement的具体数据

    1、Header 的数据结构

    header.png
    header_info.png

    2、Load Commands 的部分信息

    Load Commands.png LoadCommands2.png

    3、Data 数据区

    数据段 segment

    存放数据:代码、字符常量、类、方法等, 可以拥有多个 segment ,每个 segment 可以有零到多个 section 。每个段都有一段虚拟地址映射到进程的地址空间,先来看下数据结构, LC_SEGMENT_64 定义了一个 64 位的 segment,其定义如下:

    Data.png

    dyldfileoff (基于当前架构的文件偏移量)处 fileSize 大小的内容加载到虚拟内存的 vmaddr 处,其大小为 vmsizesegment 的权限由 initprot 进行初始化。
    LC_SEGMENT_64 包括了一下 4 种:

    • _PAGEZERO : 空指针陷阱段,用与捕捉对 iNULL 指针的引用;
    • _TEXT : 代码段/只读数据段;
    • _DATA : 读取/写入数据的段;
    • _LINKEDIT : dyld 需要的信息;
    Section 段
    在 Segment 里面会包含不同的 section ,其结构如下图:
    Section.png
    • sectname: section 的名字
    • segname: segment 的名字
    • addr: 映射到虚拟地址的偏移
    • size: section 的大小
    • offset: section 在当前架构中的偏移
    • align: section的字节对齐大小 n
    • reloff: 重定位入口的文件偏移
    • nreloc: 重定位入口的个数
    • flags: section的类型与属性:
    • reserved: 保留位
    __TEXT SegmentSection:
    __TEXT.png
    • __text: 可执行文件的代码区域
    • __objc_methname: 方法名
    • __objc_classname: 类名
    • __objc_methtype: 方法签名
    • __cstring: 类 C 风格的字符串
    __DATA SegmentSection:
    __DATA.png
    • __nl_symbol_ptr: 非懒加载指针表,dyld 加载会立即绑定
    • __ls_symbol_ptr: 懒加载指针表
    • __mod_init_func: constructor 函数
    • __mod_term_func: destructor 函数
    • __objc_classlist: 类列表
    • __objc_nlclslist: 实现了 load 方法的类
    • __objc_protolist: protocol的列表
    • __objc_classrefs: 被引用的类列表
    • __objc _catlist: Category列表
    Symbol Table 符号表,这个是重点中的重点,符号表是将地址和符号联系起来的桥梁。符号表并不能直接存储符号,而是存储符号位于字符串表的位置。
    String Table.png
    String Table 字符串表所有的变量名、函数名等,都以字符串的形式存储在字符串表中。
    String Table.png
    Dynamic Symbol Table 动态符号表,动态符号表并不存储符号信息,而是存储其位于符号表的偏移信息。Fishhook 源码看起来比较复杂主要是因为 hook 的是动态链接的函数,索引和链接关系比较绕。但是我们自己编写的C函数不是动态链接的,而是在编译链接后代码指令就存储在文件内部的函数,因此不会用到动态符号表。接下来我们以 static 函数为例,看看如何动态的查找自己编写的函数地址。
    Dynamic Symbol Table.png

    关于 Mach-O 更具体的扔然需要我们去探究,只有知道了底层我们才能有更多的方法去解决问题,并且优化问题。

    相关文章

      网友评论

          本文标题:详解 Mach-O 文件结构

          本文链接:https://www.haomeiwen.com/subject/tqcyeltx.html