美文网首页
RSA Conference 2019 阿里安全 Use mod

RSA Conference 2019 阿里安全 Use mod

作者: C陈Cathy_chen | 来源:发表于2019-03-05 23:30 被阅读0次

以下内容根据RSA 阿里安全的PPT学习得来,如果涉及版权问题,请与我联系。我立即删除。

安全数据分析中机器学习和统计模型

Machine Learning vs. Statistical Modeling

机器学习:依赖数据和算法

Machine Learning: Rely on data and algorithms

  • 大量加了标签的数据Large amount of labeled data
  • 特征工程 / 日志嵌入Feature engineering / log embedding
  • 合适的学习算法 Proper learning algorithms

统计模型:依赖人的经验

Statistical Modeling: Rely on human’s experiences

  • 查找攻击行为的共同特征 Find common trait of attack behavior
  • 特征工程 Feature engineering
  • 合适的统计算法 Proper statistical algorithms

相比起来「机器学习」在攻击检测上效果不佳。

机器学习擅长找到「正常模式」,但是入侵是异常行为。不能简单认为异常数据就是非正常的那部分。

‘大数据’不等同于‘大标签(labeled)数据’,无人监督学习的准确度和召回率不能支持安全运营的应用。

很难定义一个合适的功能来判断是否一个记录代表入侵没有。只有“是或否”不足以做安全分析。

适合机器学习的场景是一些特定领域,容易积累标签数据的那种。比如垃圾邮件、DGA域名检测、网络爬虫检测。

解决办法:使用统计模型解构威胁

Solution: Use Statistical Modeling to Deconstruct Threats

关键点:入侵的发现路径

入侵通常需要很长时间,有多个阶段,路经多个节点。

因此安全数据分析的过程如下:

1)数据预处理

去除正常数据中的干扰项。

  • 正常行为导向模型:重复的行为总是正常的
  • 过滤出大概率的正常数据
  • 召回是最重要的指标

2)攻击模型

识别可疑行为。

  • 攻击导向模型:相同类型的攻击倾向于有同样的特征
  • 检索更多疑似攻击行为构成异常行为模型
  • 精确度是最重要的指标:假阳性(识别为攻击但其实不是真的攻击)成本最高。比如增加打印机可能会导致网络重新扫描;一些基于云的服务可能有心跳检测;防病毒工具可能使用DNS通道抽样可疑文件。

3)告警关联

基于风险给告警设置优先级。

  • 基于图形的路径发现和风险优先排序
  • 节点:资产、IP地址、网络
  • 连线:攻击关系、或者风险传播
  • 一对节点只能有一个连线,不管有多少告警在他们之间
  • 建立完整的攻击场景
  • 不同的攻击阶段
  • 资产的网络分布
  • 风险和每个告警的准确度
  • 精确度是最重要的指标:假阳性成本很高

真实攻击要一直保持总结在100个告警以内!(运营单天处理能力上限)

相关文章

网友评论

      本文标题:RSA Conference 2019 阿里安全 Use mod

      本文链接:https://www.haomeiwen.com/subject/outzuqtx.html