Task01 异常检测介绍(2天)
● 了解异常检测基本概念
● 了解异常检测基本方法
1. 定义:
异常检测是识别与正常数据不同的数据,与预期行为差异大的数据。
霍金斯对异常的定义:“异常值是一个与其他观察结果有很大差异的观察结果,以此引起人们怀疑它是由不同的机制产生的”。异常(Anomalies)在很多文献中也被称为偏差(deviants)或离群点(outliers)。
2.分类:
异常可以分为单点异常、上下文异常和群体(集体)异常三种。
• 点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的。
• 上下文异常(conditional anomalies):数据点不孤立,不离群,但在一个序列中它出现在了不符合序列规律的位置。
• 群体异常(group anomalies):单个数据点的异常集合称为集体或群体异常。群体异常就是单独看每个数据点都正常,但将这些点看做一个整体时,与其他整体会有明显差别。
3.异常检测的方法:
• 基于统计学的方法:进行概率统计
• 线性模型方法:线性回归,PCA
• 基于邻近度的方法:基于聚类,基于距离,基于密度
• 集成方法:Feature bagging,孤立森林
• 机器学习方法:gbdt,xgboost
参考文献:
[1] https://github.com/datawhalechina/team-learning-data-mining/tree/master/AnomalyDetection
[2] Chalapathy R , Chawla S . Deep Learning for Anomaly Detection: A Survey[J]. 2019.
网友评论