第九周、Lecture 15
- 假设所有的训练数据符合高斯分布(Gaussian(Normal) distribution)
高斯分布
均值(mean):
标准方差(standard deviation):
其中:
- 算法描述:
1.)选择特性是一组符合高斯分布的特证向量,
2.)计算
3.) 对于一个新的x值的概率为
3.异常检测系统的开发和评价
给定一组训练集(x,y) , “y=0”(正常 non-anomalous), "y=1"(异常 anomalous)
1.) 把数据拆分成训练集和验证集/测试集(cross validation/test)
2.) 计算训练集的概率p(x)
3.) 在验证集中
求出 最大值对应的
- 异常检测 vs. 监督学习
异常检测 | 监督学习 |
---|---|
- 非常小的异常数据"y=1"的数据 - 非常大的正常数据 - 太多的异常数据类别 |
-"y=1"和"y=1"的数据量相差不大 |
例如: - 欺诈检测 - 制造业的那异常产品 - 数据中心的监控 |
- 垃圾邮件 - 天气预报 - 肿瘤分类 |
5.选择特征变量(feature)
1.) 非高斯分布的特征可以通过函数变换,例如log(x)
2.) 异常检测的误差分析(error analysis for anomaly detection)
目标:找到x,使
正常(normal)的概率P(x)最大
异常(anomaly)的概率P(x)最小
例如:如下图所示
image.png
如果x1是异常,使是x1出现的概率p(x)值特别大说明x的特性(feature)不对,要找出其他的特征值(feature),使概率最小。
实际的例子:
对于数据中心的异常监控(monitoring computers in data center)
- 多变量高斯分布(multivariate Gaussian distribution)
前面的算法是
对于多变量高斯分布(multivariate Gaussian distribution)不再计算每个变量的对应的然后相乘。
而是做为一个整体计算
原来的模型(original mode) | 多变量高斯分布(multivariate Gaussian distribution) |
---|---|
需要人工选择变量,找出异常值, 例如前面提到的 优点是计算量更小 |
可以自动获取异常值 计算量比较大 m>n否则 |
网友评论