异常检测问题介绍
假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等
这样一来,你就有了一个数据集,从到,如果你生产了个引擎的话,你将这些数据绘制成图表,看起来就是这个样子
这里的每个点、每个叉,都是你的无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。
给定数据集 ,我们假使数据集是正常的,我们希望知道新的数据 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 。
上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。
这种方法称为密度估计,表达如下
异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。
异常检测可以概述为:
样本的第个用户特征
模型为我们其属于一组数据的可能性,通过检测非正常样本
用高斯分布解决异常检测
对于给定的数据集 ,我们要针对每一个特征计算 和的估计值
给定新的一个训练实例,根据模型计算
当时,判断为异常
下图是一个由两个特征的训练集,以及特征的分布情况:
假设上图中绿色的点是需要测试的样本,设定, 根据已有的公式计算
, 正常
, 异常
下面的三维图表表示的是密度估计函数,轴为根据两个特征的值所估计值:
开发和评估一个异常检测系统
当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如:我们有10000台正常引擎的数据,有20台异常引擎的数据。 我们这样分配数据:
6000台正常引擎的数据作为训练集
2000台正常引擎和10台异常引擎的数据作为交叉检验集
2000台正常引擎和10台异常引擎的数据作为测试集
具体的评价方法如下:
- 根据训练集数据,我们估计特征的平均值和方差并构建函数
- 对交叉检验集,我们尝试使用不同的值作为阀值,并预测数据是否异常,根据值,或者之比选择
- 选出 后,针对测试集进行预测,计算异常检验系统的值,或者之比
异常检测与监督学习的对比
异常检测 | 监督学习 |
---|---|
非常少量的正向类(异常数据 ), 大量的负向类() | 同时有大量的正向类和负向类 |
许多不同种类的异常,非常难。根据非常少量的正向类数据来训练算法 | 有足够多的正向类实例,足够用于训练 算法,未来遇到的正向类实例可能与训练集中的非常近似 |
未来遇到的异常可能与已掌握的异常、非常的不同 | -- |
例如: 欺诈行为检测 生产(例如飞机引擎)检测数据中心的计算机运行状况 | 例如:邮件过滤器 天气预报 肿瘤分类 |
对于很多技术公司可能会遇到的一些问题,通常来说,正样本的数量很少,甚至有时候是0,也就是说,出现了太多没见过的不同的异常类型,那么对于这些问题,通常应该使用的算法就是异常检测算法。
异常检测选择特征与误差分析
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布。例如使用对数函数,为非负常数
一个常见的问题是一些异常的数据可能也会有较高的值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
上图中,左边的曲线图,假设有一个异常样本是图中的绿色点,它也有很高的值。想检测出来这种异常点的可行方法是增加一些特征,比如右图中增加特征,绿色的异常样本呢就能和正常样本很好地区分开,值也会变得很小。例如,在检测数据中心的计算机状况的例子中,我们可以用CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。
网友评论