data:image/s3,"s3://crabby-images/ae717/ae7172628e16d8310485ca1335d4c6ea13719e8b" alt=""
1 异常检测
对于一些已有的数据,我们希望通过对数据的区分,从中找出一些异常的情况。
这样做的目的是什么呢?
例如对于飞机来说,我们可能需要迅速定位可能出现异常的引擎;
例如对于用户账号来说,我们可能需要发现账号是否被盗;
例如对于电商来说,我们可能需要识别刷单的行为。
从已有数据中找到异常的数据,在日常生活中应用非常广泛。
还记得之前看到一篇文章,教育贷款客户的人际网络做成关系图,正常客户和骗贷客户是有着明显差异的,有兴趣可以点击文章链接查看。
那么机器是如何识别出来异常情况呢?
用前面所说的飞机引擎为例,我们有关于温度和震动的数据:
data:image/s3,"s3://crabby-images/a7b9b/a7b9bb50f313f38b04eae9eefcab00129f8f2969" alt=""
然后我们可以给这些数据圈定一个范围:
data:image/s3,"s3://crabby-images/e8671/e86717fc727cbf7be92c23e3003f3f6e5560cd42" alt=""
如果数据落点在范围之外,那么就判断这是异常的数据,例如左上角箭头标记的数据:
data:image/s3,"s3://crabby-images/f7400/f7400891137b31039f4440475e0671d91b7744ab" alt=""
这就是异常检测 (Anomaly detection)。
不同的圈子代表着不同的敏感度,圈子越小,误判的几率就越大。
例如我们认定绿圈之外的都是异常值,那么检测出来的异常就比较多,而如果我们认定黄圈之外的才是异常值,那么检测出来的异常就比较少。
2 公式与计算
异常检测的过程,其实是衡量数据密度的过程。数据分布集中的数据被认为是正常的,分布偏离中心的数据被认为是异常的。
对于这样衡量数据的密度情况,可以使用高斯分布(正态分布)来计算各项数据的概率。
假设一个随机变量 X 服从高斯分布,那么可以记为:
data:image/s3,"s3://crabby-images/14997/1499727bfb114ff1a093cc026a13e232e0a92a43" alt=""
其中:
data:image/s3,"s3://crabby-images/c386a/c386a7396511d25ade9b314f4b4175868b53962b" alt=""
data:image/s3,"s3://crabby-images/ebcca/ebccaee14a12b14302fd5e3130328a9d4512a033" alt=""
密度概率的函数为:
data:image/s3,"s3://crabby-images/20ec9/20ec95d6e3a8b0f7f10a10bbb5c8cacaebdfa243" alt=""
其曲线大概是这样的:
data:image/s3,"s3://crabby-images/fd282/fd2824fb5dc520bfbbeabcd76f70601734fb6137" alt=""
平均值 μ 决定了其中心位置,标准差 σ 决定了其宽度。
我们看一下 μ 和 σ 的变化会怎么影响图像的:
data:image/s3,"s3://crabby-images/dcd26/dcd26b295dae9ab402ec49cebb64d3fe36a31983" alt=""
如果有两个特征 x1 和 x2 的数据:
data:image/s3,"s3://crabby-images/068f9/068f9efbbc6be8a740e3cf49eb3c5b16c7d9ac52" alt=""
那么对于 x1 和 x2 ,我们大概可以得到这样的高斯分布:
data:image/s3,"s3://crabby-images/b8979/b8979f8ec93bf0c18ff8e5a01dd3bf5ae2b948b9" alt=""
两者一起的密度概率 p(x) ,我们可以这样衡量:
data:image/s3,"s3://crabby-images/798ac/798ac46f0b6f4b1c5356cee4c5a8cf71acdf0eeb" alt=""
对应到三维图示如下,图中落点的高度就是概率:
data:image/s3,"s3://crabby-images/fb563/fb563647fa625bff57eb4a1177ba6eae0b9543bb" alt=""
那么扩展开来,对于 n 维的数据集 X :
data:image/s3,"s3://crabby-images/53a3c/53a3c064c35c247f84ca106b23402ba7edad2b12" alt=""
我们需要对每一个特征计算密度概率,并通过累积汇总:
data:image/s3,"s3://crabby-images/ec213/ec2132c719db1e927b21d23484fb92a0a1e360c0" alt=""
最终的结果就是判断是否为异常的概率。
3 如何使用
异常检测的数据一般来说属于偏斜类,也就是正常的数据很多,异常的数据很少。
还是用之前的飞机引擎为例,假如我们有 10000 组正常的数据,20 组异常的数据。
这时候我们可以建立异常检测模型,将他们划分为 3 种数据集:
训练集:6000 组正常数据
验证集:2000 组正常数据,10 组异常数据
测试集:2000 组正常数据,10 组异常数据
训练集用来训练模型 p(x) 。
验证集用来选择合适的错误临界点 ε (我们判断 p(x) < ε 时为异常数据),并通过计算查准率、召回率和F1Score 衡量算法效果:
data:image/s3,"s3://crabby-images/586cc/586cc5cfd4ef2c31f3ffe843e1d11474a2db70ec" alt=""
data:image/s3,"s3://crabby-images/11b50/11b50a687b68af6ea838bbe359f8f83df7102fe4" alt=""
data:image/s3,"s3://crabby-images/d91e5/d91e5b08ef1c7fa8df889cde9f5ae7dd056102f5" alt=""
测试集用来检验最终的结果。
文章转载自公众号:止一之路
网友评论