本文主要工作:
①基于网络安全知识库的五元组模型(包含五个元素:概念、实例、关系、属性和规则),构建网络安全知识本体
②使用Stanford NER base训练网络安全领域的抽取模型,其中特别验证了useGazettes特征对抽取效果的影响
③知识推演:属性推演,使用属性值预测公式来得到新的属性;关系推理,基于路径排序算法并使用关系推理预测公式得到实例之间的新关系
总体框架:
image.png
主要涉及三部分:数据源、信息抽取、本体构建。首先构建了网络安全本体论,基于构建的本体论,从结构化和非结构化数据中提取所需网络安全信息。
网络安全本体:
image.png
包含五个实体类型:漏洞、资产、软件、操作系统、攻击
知识推演:
漏洞数据来源:CVE、 NVDSecurityFocus、 CXSECURITY、Secunia、中国国家漏洞数据库(CNVD)、CNNVD和安全内容自动化协议中国社区(SCAP)。
攻击的数据来源主要包括两类:一类来自信息安全网站,其中包括Pediy BBS、 Freebuf、Kafan BBS和开放Web应用安全项目(OWASP);另一类来自企业自建信息响应中心,包括360安全响应中心(360SRC)和阿里巴巴安全响应中心(ASRC)。
(1)属性推演
image.png image.png
图中有三个实例: Ni、 Nj和Nl,每一个实例对应一对(key, values)值。属性由(节点、键、值)对表示。属性值预测公式如下:
image.png
(2)关系推演
本文选择使用路径排序算法。路径排序的基本思想是使用连接两个实体的路径作为特征来预测两个实体之间的关系。对于给定的关系,通过使用路径排序算法,我们可以确定两个实体之间是否存在这种关系。关系推理的预测公式:
image.png
式中, π为所有从l到j的可达路径, length(π)≤n。如果Score(l, j)≥τ, τ为阈值,则elj成立;否则不成立。通过路径排序算法可以得到新的关系。
网友评论