哲哲的ML笔记（三十一：异常检测）

作者: 沿哲 | 来源:发表于2021-05-05 19:48 被阅读0次

哲哲的ML笔记（三十一：异常检测）
哲哲的ML笔记（二：模型）
哲哲的ML笔记（四：矩阵）
哲哲的ML笔记（三：梯度下降）
哲哲的ML笔记（七：学习率）
哲哲的ML笔记（九：正规方程）
哲哲的ML笔记（十八：反向传播）
哲哲的ML笔记（十一：决策边界）
哲哲的ML笔记（十四：正则化）
哲哲的ML笔记（三十二：推荐系统）

异常检测问题介绍

假想你是一个飞机引擎制造商，当你生产的飞机引擎从生产线上流出时，你需要进行QA(质量控制测试)，而作为这个测试的一部分，你测量了飞机引擎的一些特征变量，比如引擎运转时产生的热量，或者引擎的振动等等

这样一来，你就有了一个数据集，从 $x^1$ 到 $x^m$ ，如果你生产了 $m$ 个引擎的话，你将这些数据绘制成图表，看起来就是这个样子

这里的每个点、每个叉，都是你的无标签数据。这样，异常检测问题可以定义如下：我们假设后来有一天，你有一个新的飞机引擎从生产线上流出，而你的新飞机引擎有特征变量

x_{test}

。所谓的异常检测问题就是：我们希望知道这个新的飞机引擎是否有某种异常，或者说，我们希望判断这个引擎是否需要进一步测试。
给定数据集

x^1,x^2,x^3……x^m

，我们假使数据集是正常的，我们希望知道新的数据

x_{test}

是不是异常的，即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性

p(x)

。

上图中，在蓝色圈内的数据属于该组数据的可能性较高，而越是偏远的数据，其属于该组数据的可能性就越低。
这种方法称为密度估计，表达如下

p(x) \left\{ \begin{array}{rcl} <\xi & & anomoly \\ \geq \xi & & normal \end{array} \right.

异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据，一个特征向量中可能会包含如：用户多久登录一次，访问过的页面，在论坛发布的帖子数量，甚至是打字速度等。尝试根据这些特征构建一个模型，可以用这个模型来识别那些不符合该模式的用户。

异常检测可以概述为：

$x^i$ 样本的第 $i$ 个用户特征
模型 $p(x)$ 为我们其属于一组数据的可能性，通过 $p(x)<\xi$ 检测非正常样本

用高斯分布解决异常检测

对于给定的数据集 $x^1,x^2……x^m$ ，我们要针对每一个特征计算 $\mu$ 和 $\sigma^2$ 的估计值
$\mu_j=\frac{1}{m}\sum_{i=1}^{m}x_j^i$

$\sigma_j^2=\frac{1}{m}\sum_{i=1}^{m}(x_j^i-\mu_j)^2$
给定新的一个训练实例 $x_{test}$ ，根据模型计算 $p(x)$
$p(x)=\prod_{j=1}^n p(x_j;\mu_j;\sigma_j^2)=\prod_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2})$
当 $p(x)<\xi$ 时，判断为异常

下图是一个由两个特征的训练集，以及特征的分布情况：

假设上图中绿色的点是需要测试的样本，设定

\xi=0.02

, 根据已有的公式计算

p(x)

p(x^1_{test})=0.0426\geq 0.02

, 正常

p(x^1_{test})=0.00021< 0.02

, 异常

下面的三维图表表示的是密度估计函数， $z$ 轴为根据两个特征的值所估计 $p(x)$ 值：

开发和评估一个异常检测系统

当我们开发一个异常检测系统时，我们从带标记（异常或正常）的数据着手，我们从其中选择一部分正常数据用于构建训练集，然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如：我们有10000台正常引擎的数据，有20台异常引擎的数据。我们这样分配数据：
6000台正常引擎的数据作为训练集
2000台正常引擎和10台异常引擎的数据作为交叉检验集
2000台正常引擎和10台异常引擎的数据作为测试集

具体的评价方法如下：

根据训练集数据，我们估计特征的平均值和方差并构建函数 $p(x)$
对交叉检验集，我们尝试使用不同的 $\xi$ 值作为阀值，并预测数据是否异常，根据 $F1$ 值，或者 $\frac{precision}{recall}$ 之比选择
选出后，针对测试集进行预测，计算异常检验系统的 $F1$ 值，或者 $\frac{precision}{recall}$ 之比

异常检测与监督学习的对比

异常检测	监督学习
非常少量的正向类（异常数据 $y=1$ ）, 大量的负向类（ $y=0$ ）	同时有大量的正向类和负向类
许多不同种类的异常，非常难。根据非常少量的正向类数据来训练算法	有足够多的正向类实例，足够用于训练算法，未来遇到的正向类实例可能与训练集中的非常近似
未来遇到的异常可能与已掌握的异常、非常的不同	--
例如：欺诈行为检测生产（例如飞机引擎）检测数据中心的计算机运行状况	例如：邮件过滤器天气预报肿瘤分类

对于很多技术公司可能会遇到的一些问题，通常来说，正样本的数量很少，甚至有时候是0，也就是说，出现了太多没见过的不同的异常类型，那么对于这些问题，通常应该使用的算法就是异常检测算法。

异常检测选择特征与误差分析

异常检测假设特征符合高斯分布，如果数据的分布不是高斯分布，异常检测算法也能够工作，但是最好还是将数据转换成高斯分布。例如使用对数函数 $x=log(x+c)$ ， $c$ 为非负常数

一个常见的问题是一些异常的数据可能也会有较高的 $p(x)$ 值，因而被算法认为是正常的。这种情况下误差分析能够帮助我们，我们可以分析那些被算法错误预测为正常的数据，观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征，增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。