吴恩达机器学习-Chapter 16 异常检测

作者: 数据追随者 | 来源:发表于2019-05-12 14:30 被阅读2次

目的:介绍无监督学习异常检测算法,主要是用高斯分布(正态分布)数据模型

1. Lesson 123 问题动机

    1. 目的:解释异常检测的背景也应用场景
    2. 内容:给到一定的数据集,无监督训练并建立模型(p(x),高斯分布),当p(x)<ℇ时,代表异常
    3. 应用场景:交易欺诈、网站登录异常、服务器集群监控等

2. Lesson 124 高斯分布

    1. 目的:介绍高斯分布(正态分布)
    2. 内容:
      1. 实数集x∈R,如果说x服从均值μ,方差𝜎2的正太分布,则记为:x~N(μ,𝜎2),其中μ空值曲线的中心,𝜎^2空值宽度

正态分布图.jpeg
      2. 高斯分布公式
高斯分布公式.png
      3. 标准正太分布,μ=0,,𝜎=1
标准正太分布公式.png
      4. 均值μ、方差𝜎^2公式
均值、方差、标准差.png

3. Lesson 125 算法

    1. 目的:介绍如何将高斯分布应用于算法,以及如何开发

    2. 内容:∑表示累积相加,∏表示累积相乘,如果p(x)<ℇ表示x异常 image.png

4. Lesson 126 开发和评估异常检测

    1. 目的:评估异常检测算法
    2. 内容:
      1. 最好是有正样本的数据集,并且将正样本分散到验证集和测试集中

image.png
      2. 异常检测本身也是一个非对称数据集,在具体评估时使用召回率(R=正确预测分类数量/实际正样本数量,评估覆盖度)、准确率(P=正确预测分类数量/预测正样本数量,评估准确性)、F值(2(PR)/(P+R) ,F值越大越好)指标进行评估

5. Lesson 127 异常检测与监督学习

    1. 目的:解释异常检测和监督学习的区别和不同应用场景
    2. 内容
      1. 当正样本数量极少,负样本数量极多(即非对称数据集)时建议使用异常检测算法,且正样本的异常情况不好预测
      2. 当数据集同时包括了大量正负样本时,可以使用监督学习

6. Lesson 128 选择要使用的特征

    1. 目的:如何选择或设计异常检测算法的特征变量
    2. 内容:
      1. 首先画出x的分布图,看是否服从正太分布,如果不服从,可以用使用log(x+c)等函数使得x_new服从正太分布


image.png

      2. 误差分析,通过误差分析找出异常值,并人工检查看能否发现新的特征,比如衍生变量(x1/x2等)

7. Lesson 129 多变量高斯分布

    1. 目的:介绍原始多元分布的延伸,多元高斯分布
    2. 内容:
      1. 存在一种情况是单个独立特征服从高斯分布,并不异常,但是组合起来就明显异常,这个时候就需要用到多变量高斯分布


原始高斯分布问题场景.png

      2. 多元高斯分布公式


image.png
image.png

8. Lesson 130 使用多变量高斯分布的异常检测

    1.目的:讲解多元高斯分布算法公式
    2.内容
      1.具体公式已经放到上图中

      2.原始模型与多元模型选择场景,多元模型计算量较大(特别是特征变量多的时候),原始模型通过衍生特征一定程度上解决上面的问题 image.png

相关文章

网友评论

    本文标题:吴恩达机器学习-Chapter 16 异常检测

    本文链接:https://www.haomeiwen.com/subject/mqxcaqtx.html