美文网首页
VDiscover 分析

VDiscover 分析

作者: yyyyyyyyt | 来源:发表于2018-04-25 00:07 被阅读0次

    0x00 VDiscover介绍

    VDiscover是G.Grieco开发出的利用机器学习进行二进制漏洞挖掘的轻量级Python项目,他们从大量程序中提取出静态特征和动态特征,训练出漏洞预测模型,预测二进制程序漏洞。
    这里是他们的技术文档Toward large-scale vulnerability discovery using Machine Learning,这是项目的GitHub地址VDiscover

    0x01 VDiscover安装

    在Ubuntu下进行安装,首先安装python-numpy python-matplotlib python-setuptools python-scipy依赖,然后执行以下命令进行安装:

    sudo apt-get install python-numpy python-matplotlib python-setuptools python-scipy
    git clone https://github.com/CIFASIS/VDiscover.git
    cd VDiscover
    python setup.py install –user
    
    0x11 设置环境变量
    sudo nano .zshrc  #我用的是zsh
    

    加入以下两行

    #for yyyyyyyyt
    export PATH=$PATH:~/.local/bin
    

    执行脚本内容,更改立即生效

    source .zshrc 
    
    0x12 VDiscover测试

    执行以下命令,提取gzip程序的动态特征:

    fextractor --dynamic examples/testcases/gzip
    

    0x02 静态特征提取

    0x21 基本思路

    将程序代码映射到表中,存储指令序号、地址、关键操作码/None、关键操作码后跟的地址(即跳转或者函数调用的地址)/None。这样不需要执行程序就可以模拟程序执行流程,提取程序执行时的函数调用流。
    在模拟运行时首先会随机选取一个库函数调用指令,然后从那条指令开始“执行”,由于没有真正运行程序,在遇到条件跳转的时候会随机选择跳或者不跳,其它流程都可以正常模拟,直到遇到exit函数或者ret指令等结束,然后按顺序记录下函数调用流。
    静态特征提取会得到大量的这种函数调用流。

    fextractor --static examples/testcases/gzip
    

    运行fextractor脚本可以进行特征提取,--static选项可指定提取静态特征,上面这行代码可将gzip程序的静态特征提取出来,并输出到shell


    静态特征提取
    0x22 提取步骤

    1、从ELF中提取PLT、GOT表


    2、将程序的汇编代码(线性搜索-objdump)提取出来,做成一个列表和一个字典,列表useful_inss_list的格式为[序列号,指令地址,关键操作码/None,关键操作码后跟的地址/None],以指令地址作为关键字再组建一个字典useful_inss_dict,并且将所有的plt调用写入libc_calls列表中。注:关键操作码包括条件跳转和非条件跳转


    关键操作码
    关键处理

    3、从libc_calls中随机选择一个库函数,从该函数调用开始顺序记录执行的函数名,直到程序结束。就是从随机的一处调用起走一遍程序的执行流程,遇到跳转就直接走到目标地址,遇到条件跳转就随机选择一条路径往下走,记录沿途调用的函数。可以定义随机跟踪函数调用的次数,得到用”.”号隔开的N个函数调用流。


    跟踪系统函数调用流
    0x23 静态特征提取中存在的问题:

    1、一个主要的问题是很多地方没有考虑到10进制数字和16进制字符串的转换,使得一些逻辑流程存在问题,应该记录的库函数调用没有记录下来
    2、一开始会从plt表中筛选出存在于specs中的函数,但是specs中的函数又不全,会导致本应该添加到函数调用流的函数没有添加进去。如果被筛掉的函数是一个exit类函数,会有陷入死循环的可能
    3、有些条件跳转指令没有加上,比如说"jne",严重的话可导致在某些地方产生死循环

    修改RandomWalk.py
    下面尽可能修复了这三处问题,关于第一个问题只需要在进行plt表比对前将数据转换为10进制数,然后再进行比对;解决第二个问题直接用原先的plt表,不要筛掉里面的任何函数;解决第三个问题只能暂时在条件跳转列表里加上“jne”,如果以后发现有遗漏再继续添加。

    ***第43-47行***
    注释掉
    
    ***第49行***
    elf.plt = elf.addr2name #至少要把所有的外部函数函数都收集起来吧
    
    ***第55行***
    在cond_control_flow_ins列表中加上"jne"
    
    ***第58行***
    ncond_control_flow_ins = ["ret", "jmp", "call", "retq", "jmpq", "callq"] 
    
    ***第156行***
    ins_jaddr_plt = int(ins_jaddr, 16)
    if ins_jaddr_plt in elf.plt:
        r = r + " " + elf.plt[ins_jaddr_plt]
        if elf.plt[ins_jaddr_plt] in ["exit", "_exit"]:
            break
    
    ***第182行***
    ins_jaddr_plt = int(ins_jaddr, 16)
    if ins_jaddr_plt in elf.plt:  # call equivalent using jmp
        r = r + " " + elf.plt[ins_jaddr_plt]
    
    ***第191行***原190行
    注释掉,否则10进制无法匹配16进制
    

    0x03 动态特征提取

    0x31 基本思路

    将程序路径及其参数用指定的格式进行存储,在脚本启动后会创建一个子进程来运行该程序且参数可以变异(模糊测试)。使用ptrace对程序进行监控,在入口点下断点,然后在所有包含在specs字典中且在程序plt表中的函数的调用处下断点,运行程序每当在库函数停下时,检测其参数(读取参数并细分其类型),最后按照某一格式存储起来。

    0x32 提取步骤

    1、获取程序运行参数,提取动态特征需要真实运行程序,因此需要指定程序运行时的参数,典型的测试用例文件夹具有以下结构:一个path.txt文件和inputs文件夹,所谓参数获取正是从下列文件中提取出要执行的程序及其运行参数。
    PS:如果要添加新的样例,也要按照下面格式添加程序的路径和参数等信息

    program      
     path.txt          #包含要被分析的二进制程序的完整绝对路径
     inputs
       argv_1.symb     #指定第一个参数
       argv_2.symb     #指定第二个参数
       ...
       file_filename1.ext.symb
       file_filename2.ext.symb
       ...
    

    2、同样需要从程序中提取出plt表和got表,也是筛选plt表中的函数,如果该函数也在specs中,就在其plt表处下一个断点,并用binfo字典来存储断点信息。



    字典specs中存储了大量库函数的名字、返回值类型和参数类型,是从VDiscover/vdiscover/data文件夹下的prototypes.conf文件中提取的信息(下图左侧),应该尽可能让里面的内容覆盖要提取特征的程序的plt表,可以自己加上需要用到的函数信息



    3、在捕获到断点之后,会检测当前函数的参数类型,将它们细分为不同的类型(具体见技术文档),比如如果程序是64位的,它会从相应寄存器中找出函数的各个参数,然后判断参数的类型,如果是指针,就会通过内存映射信息来细分它是哪种指针。 取参数
    判定指针类型

    4、最后将收集到的信息存储下来,也可以打印到shell,格式为“函数名:参数号=参数类型”
    PS:执行结果上面都给出了,这里不重复了(见0x12)


    相关文章

      网友评论

          本文标题:VDiscover 分析

          本文链接:https://www.haomeiwen.com/subject/loujlftx.html