假定特征 其分布服从高斯正态分布,每个特征对应的p(x) 的模型写成一个乘积式,也就是 n 个概率的乘积。但实际中无论这些特征是否独立(特征独立,概率可以连乘),即使这个独立的假设不成立,这个算法的效果也还不错。
估计 p(x) 的分布问题通常被称为密度估计问题。
密度估计问题异常检测算法:
1.选择特征:找出一些可以反映出样本异常的特征 xi
2.给出一组m 个无标签数据构成的训练集,从 x(1) 到 x(m),拟合出期望 μ1 到 μn,以及方差值 (σ1)^2 到 (σn)^2。
μj 是特征 j 的平均值,因此 μj 对应的模型就是 p(xj; μj, (σj)^2),因此μj 就相当于对特征 j 的所有训练集数据取平均值。
3. 计算出 p(x) 的值
异常检测算法从图上不难发现,在这个图的中间部分的x1 x2通常都对应于一个比较高的表面值,预示着非异常样本或者正常样本;而在周围边缘的点这些桃红色的区域,所有这些区域对应的概率值都是非常小的,因此我们会标记这些点为异常样本区域。所以也许可以定义某个区域,在这个外面的标记为异常区域,里面的可以标记为非异常区,表示无异常的样本。
异常检测示例
网友评论