基于邻近度的方法

作者: 战忽局女程序猿 | 来源:发表于2021-05-21 00:03 被阅读0次

1、概述

噪声可以视为特性较弱的异常值；异常值有更高的离群程度分数值。

2、基于距离的度量

核心：最近邻距离

前提假设：异常点的k近邻要远大于正常点

遍历每个数据，计算当前点与其他点的距离，一旦有超过k个点在距离D以内，则标记为非异常点，时间复杂度为N^2.

2.1基于单元的方法

二维情况为例，网格间的距离（单元格边长）为D/（2*根号2），此时，

单元格中两点之间的距离最多为D/2（对角线长度）；

一个点与L1（邻居）邻接点之间的距离最大为D（两个单元格对角线）；

一个点与它的Lr邻居（r>2)中的一个点之间的距离至少为D；（至少间隔2个单元格）为啥不是单元格边长*2

如果一个单元格中及其L1邻居都包含超过k个数据点，那么这些数据点都不是异常值；

如果单元格及其相邻L1和L2种包含少于k个数据点，则单元格中所有点都是异常点。

基于距离的异常检测

基于距离的异常检测基于点的粒度计算k近邻，精度更细，但是计算量更大。

1、基于分数异常评分输出

1.1Exact k-Nearest neighbor score

每个点的得分=数据集合D中该点到第k个最近邻的距离。

k如何确认是个难点。一般采用平均k

1.2Average k-nearest neighbor score

每个点的得分=数据集合D中该点到k个最近邻点的平均距离。

k如何确认也是一个难题，尝试【1，N/10】

相较于exact k对k的准确度要求小，average k相当于取不同k值情况下exact k得分的平均值

1.3Harmonic k-Nearest Neighbor Score 调和平均近邻分

略

2、specifying a minimum threshold on the nearest-neighbor distance

using a maximum threshold on the rank of the k-nearest neighbor distance

概率 f

距离阈值 β

2.1 分数阈值法

数据集合D中有一个数据O，如果至少有f比例情况下，D中点到O的距离比β大，则该点是一个异常点，写作DB(f,β)。

k = [N(1-f)]

也可以理解为：集合D中一个点，第k个最近邻的距离至少是β

查看的是数据点距离的排名，而非数据点之间的距离具体值

网友评论

本文标题：基于邻近度的方法

本文链接：https://www.haomeiwen.com/subject/lhzbjltx.html

基于邻近度的方法