美文网首页
0x00 RE4B读书笔记之准备工作

0x00 RE4B读书笔记之准备工作

作者: 林江川 | 来源:发表于2017-06-19 10:29 被阅读0次

    RE4B(Reverse Engineering for Beginner)是一本免费的在线教程,可以从这里获取。RE4B在讲解过程中略去了具体的操作,本系列是我学习RE4B的读书笔记,记录了我根据教程实践的过程,希望对同行者有所助益。

    RE4B的第一部分叫做“Code Pattern(代码模式)”,这里的模式指的是c语言编译成汇编语言的转换模式。我们知道gcc编译c源代码分为四个步骤:预处理、编译、汇编和链接,分别对应如下四个编译选项:

    -E                       Preprocess only; do not compile, assemble or link.
    -S                       Compile only; do not assemble or link.
    -c                       Compile and assemble, but do not link.
    -o <file>                Place the output into <file>.
    

    在第二阶段将经过预处理的c语言源代码编译为汇编代码,这个过程编译器是遵循一定的模式的,比如通过寄存器和栈处理参数传递,通过栈帧处理函数的调用等。这一步对于逆向工程至关重要。因为机器码可以比较简单的转换成汇编语言,预处理过程也比较简单,高级语言到二进制文件变化最大的就是这一阶段。如果能够很好的掌握“Code Pattern”,那么就拥有了扎实的逆向基础,才有能力去学习漏洞挖掘、漏洞分析、恶意代码分析等更高级的技能。

    需要指出的是,RE4B讲解“Code Pattern”时,同时覆盖了x86/x64、arm、和MIPS三大指令集,所以要想要编译书中的例子,需要安装支持这些指令集的编译器。我在“kali rolling”通过“apt search”命令,找到了下面这几个安装包:

    # arm32和arm64的交叉编译器
    sudo apt install gcc-6-arm-linux-gnueabi gcc-6-aarch64-linux-gnu
    # mips和mips64的交叉编译器
    sudo apt install gcc-6-mips-linux-gnu gcc-6-mips64-linux-gnuabi64
    

    我们以书中最简单的例子,“empty function”为例,测试一下这些编译器能否给出我们期待的输出。

    // empty.c
    void func() {
        return;
    }
    

    由于涉及多个平台,编译时需要重复使用多个相似的命令,我编写了如下Makefile来避免重复劳动:

    empty: empty.c
            if [ -d "asm/$@" ]; then continue; else mkdir "asm/$@"; fi
            gcc -m32 -S $< -o asm/$@/$@-x86.s
            gcc -S $< -o asm/$@/$@-x64.s
            gcc-arm -S $< -o asm/$@/$@-arm.s
            gcc-arm64 -S $< -o asm/$@/$@-arm64.s
            gcc-mips -S $< -o asm/$@/$@-mips.s
            gcc-mips64 -S $< -o asm/$@/$@-mips64.s
    
    clean:
            find . -name "*.s" | xargs rm -rf
    

    使用“tree”命令查看编译后的目录结构,如下所示:

    $ tree .
    .
    │── asm
    │   └── empty
    │        │── empty-arm64.s
    │        │── empty-arm.s
    │        │── empty-mips64.s
    │        │── empty-mips.s
    │        │── empty-x64.s
    │        └── empty-x86.s
    └── empty.c
    

    查看以下empty-x86.s文件,如下所示:

        .file   "empty.c"
        .text
        .globl  func
        .type   func, @function
    func:
    .LFB0:
        .cfi_startproc
        pushl   %ebp
        .cfi_def_cfa_offset 8
        .cfi_offset 5, -8
        movl    %esp, %ebp
        .cfi_def_cfa_register 5
        call    __x86.get_pc_thunk.ax
        addl    $_GLOBAL_OFFSET_TABLE_, %eax
        nop
        popl    %ebp
        .cfi_restore 5
        .cfi_def_cfa 4, 4
        ret
        .cfi_endproc
    .LFE0:
        .size   func, .-func
        .section
        .text.__x86.get_pc_thunk.ax,"axG",@progbits,__x86.get_pc_thunk.ax,comdat
        .globl  __x86.get_pc_thunk.ax
        .hidden __x86.get_pc_thunk.ax
        .type   __x86.get_pc_thunk.ax, @function__x86.get_pc_thunk.ax:
    .LFB1:
        .cfi_startproc
        movl    (%esp), %eax
        ret
        .cfi_endproc
    .LFE1:
        .ident  "GCC: (Debian 6.3.0-18) 6.3.0 20170516"
        .section    .note.GNU-stack,"",@progbits
    

    代码中大量以“.”起始的行是链接时需要的信息,对我们阅读汇编代码没有作用,反而产生干扰。我们可以用下面这个python脚本来过滤这些干扰项:

    #!/usr/bin/env python
    #-*- coding:utf-8 -*-
    
    import sys
    
    if len(sys.argv) != 3:
        print "Usage: python clean.py [sample name] [platform]"
        exit(0)
    
    sample = sys.argv[1]
    platform = sys.argv[2]
    with open(sample + "/" + sample + "-" + platform + ".s", "r") as f:
        for line in f:
            if not line.strip().startswith("."):
                sys.stdout.write(line)
    

    过滤链接信息后的输出,如下所示:

    $ python clean.py empty x86
    func:
        pushl   %ebp
        movl    %esp, %ebp
        call    __x86.get_pc_thunk.ax
        addl    $_GLOBAL_OFFSET_TABLE_, %eax
        nop
        popl    %ebp
        ret
    __x86.get_pc_thunk.ax:
        movl    (%esp), %eax
        ret
    

    在arm的在汇编代码中还存在以“@”符号起始的行,只要稍稍修改上面的python脚本就能解决问题。这个修改这里就不再详述了。

    至此,我们的准备工作基本完成,如果要编译书中其它的例子,只要稍稍修改Makefile就可以了。

    相关文章

      网友评论

          本文标题:0x00 RE4B读书笔记之准备工作

          本文链接:https://www.haomeiwen.com/subject/fdcgqxtx.html