2019-01-23 应用高斯分布开发异常检测算法

作者: 奈何qiao | 来源:发表于2019-01-23 21:16 被阅读0次

2019-01-23 应用高斯分布开发异常检测算法
吴恩达机器学习——异常检测
吴恩达机器学习-Chapter 16 异常检测
问题动机（Problem motivation）
机器学习学习笔记--朴素贝叶斯实践
异常值检测算法--高斯分布
5月组队学习02：基于统计学的方法
异常检测算法分类及经典模型概览
异常检测(Anomaly Detection)
【算法】异常检测

假定特征 $x_{1}，x_{2}，x_{3}...$ 其分布服从高斯正态分布，每个特征对应的p(x) 的模型写成一个乘积式，也就是 n 个概率的乘积。但实际中无论这些特征是否独立（特征独立，概率可以连乘），即使这个独立的假设不成立，这个算法的效果也还不错。

估计 p(x) 的分布问题通常被称为密度估计问题。

密度估计问题

异常检测算法：

1.选择特征：找出一些可以反映出样本异常的特征 xi

2.给出一组m 个无标签数据构成的训练集，从 x(1) 到 x(m)，拟合出期望 μ1 到 μn，以及方差值 (σ1)^2 到 (σn)^2。

μj 是特征 j 的平均值，因此 μj 对应的模型就是 p(xj; μj, (σj)^2)，因此μj 就相当于对特征 j 的所有训练集数据取平均值。

3. 计算出 p(x) 的值

异常检测算法

从图上不难发现，在这个图的中间部分的x1 x2通常都对应于一个比较高的表面值，预示着非异常样本或者正常样本；而在周围边缘的点这些桃红色的区域，所有这些区域对应的概率值都是非常小的，因此我们会标记这些点为异常样本区域。所以也许可以定义某个区域，在这个外面的标记为异常区域，里面的可以标记为非异常区，表示无异常的样本。

异常检测示例