1、概述
噪声可以视为特性较弱的异常值;异常值有更高的离群程度分数值。
2、基于距离的度量
核心:最近邻距离
前提假设:异常点的k近邻要远大于正常点
遍历每个数据,计算当前点与其他点的距离,一旦有超过k个点在距离D以内,则标记为非异常点,时间复杂度为N^2.
2.1基于单元的方法
二维情况为例,网格间的距离(单元格边长)为D/(2*根号2),此时,
单元格中两点之间的距离最多为D/2(对角线长度);
一个点与L1(邻居)邻接点之间的距离最大为D(两个单元格对角线);
一个点与它的Lr邻居(r>2)中的一个点之间的距离至少为D;(至少间隔2个单元格)为啥不是单元格边长*2
如果一个单元格中及其L1邻居都包含超过k个数据点,那么这些数据点都不是异常值;
如果单元格及其相邻L1和L2种包含少于k个数据点,则单元格中所有点都是异常点。
基于距离的异常检测
基于距离的异常检测基于点的粒度计算k近邻,精度更细,但是计算量更大。
1、基于分数异常评分输出
1.1Exact k-Nearest neighbor score
每个点的得分=数据集合D中该点到第k个最近邻的距离。
k如何确认是个难点。一般采用平均k
1.2Average k-nearest neighbor score
每个点的得分=数据集合D中该点到k个最近邻点的平均距离。
k如何确认也是一个难题,尝试【1,N/10】
相较于exact k对k的准确度要求小,average k相当于取不同k值情况下exact k得分的平均值
1.3Harmonic k-Nearest Neighbor Score 调和平均近邻分
略
2、specifying a minimum threshold on the nearest-neighbor distance
using a maximum threshold on the rank of the k-nearest neighbor distance
概率 f
距离阈值 β
2.1 分数阈值法
数据集合D中有一个数据O,如果至少有f比例情况下,D中点到O的距离比β大,则该点是一个异常点,写作DB(f,β)。
k = [N(1-f)]
也可以理解为:集合D中一个点,第k个最近邻的距离至少是β
查看的是数据点距离的排名,而非数据点之间的距离具体值
网友评论