ALDOCX:使用基于新的结构特征提取方法的特定主动学习方法对未知恶意微软文档文件的检测

引用：

Nissim N, Cohen A, Elovici Y. ALDOCX: Detection of Unknown Malicious Microsoft Office Documents using Designated Active Learning Methods Based on New Structural Feature Extraction Methodology[J]. 2016, PP(99):1-1.

研究内容：

基于机器学习及结构特征的未知恶意docx文档静态检测

背景：

1.PDF文档结构与docx文档结构不同且攻击手段也不尽相同，检测docx需要新的结构特征
2.安全公司已经在使用机器学习和规则算法创建恶意docx文档的签名库，但限于人工甄别，更新缓慢

攻击手段：

1.宏攻击
2.可信位置
3.对象嵌入链（OLE）

方法：

概述：利用docx文档及其XML文件的分层结构将其变换为路径列表，将可用来做识别的路径提取出来作为特征结合机器学习算法进行未知恶意docx文档检测，同时创建新的主动学习方法，将具有有益信息的文档加标签返回进行存储训练&提交到安全公司的签名库，提高和维护检测系统使其保持可更新性

Structural Feature Extraction Methodology（SFEM）：基于结构路径的新结构特征提取方法，将所有元素的结构路径描述出来并从中提取具有检测能力的作为特征路径
可增强检测能力的检测框架：

框架示意图

1.将系统部署在网络节点已获得大量文档样本
2.使用白名单和签名库机制判别已知文档类型进行过滤
3.未知文档使用SFEM进行转换为元素路径，成为新的文件
4.使用基于SVM和AL（主动学习）的检测模型检测，并返回两个值：SVM的分类码和分离超平面距离值，据此可分为非恶意文件、恶意文件以及携带信息可用来更新训练器的文件
5.携带信息可用来更新训练器的文件包括两类：一种为好坏边界靠近不易分辨的，一种为距离分离超平面很远的；将这些文件返回给安全公司的人工贴签专家进行甄别
6.贴签后的文件被放到训练器
7.增强检测器的检测能力
8.贴签后的文件被添加到签名库中，增强白名单
选择性抽样和主动学习方法
举例来和本文的方法对比：Random Selection (Random)、The SVM-Simple-Margin AL Method (SVM-Margin)
本文评估使用的主动学习方法：
- Exploitation：基于SVM分类规则并且对选择那些距离分离超平面远又很大概率是恶意文档的样本进行了线性微调，从而实现了支持通过获取大量样本增强安全公司签名库的目标
- Combination (A Combined Active Learning Method):将SVM-Margin方法和Exploitation方法进行结合，实现了不同阶段的主动学习有不同的表现方式，可以更好地更新训练集和签名库，前期阶段使用SVM-Margin，后期转为Exploitation
- Comb-Ploit (A Combined Active Learning Method):与Combination相反，前期使用Exploitation，后期使用SVM-Margin