美文网首页
基于邻近度的方法

基于邻近度的方法

作者: 战忽局女程序猿 | 来源:发表于2021-05-21 00:03 被阅读0次

    1、概述

    噪声可以视为特性较弱的异常值;异常值有更高的离群程度分数值。

    2、基于距离的度量

    核心:最近邻距离

    前提假设:异常点的k近邻要远大于正常点

    遍历每个数据,计算当前点与其他点的距离,一旦有超过k个点在距离D以内,则标记为非异常点,时间复杂度为N^2.

    2.1基于单元的方法

    二维情况为例,网格间的距离(单元格边长)为D/(2*根号2),此时,

    单元格中两点之间的距离最多为D/2(对角线长度);

    一个点与L1(邻居)邻接点之间的距离最大为D(两个单元格对角线);

    一个点与它的Lr邻居(r>2)中的一个点之间的距离至少为D;(至少间隔2个单元格)为啥不是单元格边长*2

    如果一个单元格中及其L1邻居都包含超过k个数据点,那么这些数据点都不是异常值;

    如果单元格及其相邻L1和L2种包含少于k个数据点,则单元格中所有点都是异常点。

    基于距离的异常检测

    基于距离的异常检测基于点的粒度计算k近邻,精度更细,但是计算量更大。

    1、基于分数异常评分输出

    1.1Exact k-Nearest neighbor score

    每个点的得分=数据集合D中该点到第k个最近邻的距离。

    k如何确认是个难点。一般采用平均k

    1.2Average k-nearest neighbor score

    每个点的得分=数据集合D中该点到k个最近邻点的平均距离。

    k如何确认也是一个难题,尝试【1,N/10】

    相较于exact k对k的准确度要求小,average k相当于取不同k值情况下exact k得分的平均值

    1.3Harmonic k-Nearest Neighbor Score 调和平均近邻分

    2、specifying a minimum threshold on the nearest-neighbor distance 

    using a maximum threshold on the rank of the k-nearest neighbor distance

    概率 f 

    距离阈值 β

    2.1 分数阈值法

    数据集合D中有一个数据O,如果至少有f比例情况下,D中点到O的距离比β大,则该点是一个异常点,写作DB(f,β)。

    k = [N(1-f)]

    也可以理解为:集合D中一个点,第k个最近邻的距离至少是β

    查看的是数据点距离的排名,而非数据点之间的距离具体值

    相关文章

      网友评论

          本文标题:基于邻近度的方法

          本文链接:https://www.haomeiwen.com/subject/lhzbjltx.html