一. 异常值填补方法
1.1 k-近邻替换法
1.2 局部加权替换法
1.3 有序最近邻替换法
1.4 均值法
1.5 最常见值法
1.6 回归填补法
1.7 多重填补方法(M-试探法)
二. 基于距离检测
k-近邻法
根据距离来确定具有缺失值数据最近的k个近邻,然后将这个k个值加权(权重一般是距离的比值吧),然后根据自定义的阈值,将距离k个近邻距离超过阈值的当做异常点。
三. 基于统计学方法检测
3σ探测方法
3σ 探测方法的思想其实就是来源于切比雪夫不等式,一般来说:
- 所有数据中,至少有 3/4(75.0%)的数据位于平均数2个标准差范围内。
- 所有数据中,至少有 8/9(88.9%)的数据位于平均数3个标准差范围内。
- 所有数据中,至少有 24/25(96.0%)的数据位于平均数5个标准差范围内。
注:只适用于单维数据
四. 基于分布的异常值检测
本方法是根据统计模型或者数据分布。然后根绝这些模型对样本集中的每个点进行不一致检验的方法。只适用于单维数据。因为数据分布未知,所以不是太准确。
3.1 Grubbs检验
步骤一:先把数据按照从小到大的顺序排列x1,x2…xn;
步骤二:假设我们认为xi为异常点。计算平均值avg;
步骤三:计算算数 平均值 和 标准差 的估计量s;
步骤四:计算统计量 gi=|xi - avg|/s;
步骤五:将gi与查Grubbs检验法的临界值表所得的g(a, n)进行比较。如果gi < g(a,n),则认为不是异常值;如果大于,就认为这个点是异常值。
3.2 Dixon检验
查表
3.3 3t分布检验方法
查表
五. 基于密度聚类
5.1 DBSCAN
由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个簇。
DBSCAN是基于一组邻域来描述样本集的紧密程度的,参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中,ϵ描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。
5.2 OPTICS
目标是将空间中的数据按照密度分布进行聚类,其思想和DBSCAN非常类似,但是和DBSCAN不同的是,OPTICS算法可以获得不同密度的聚类,理论上可以获得任意密度的聚类。
5.3 Chameleon
步骤一:创建稀疏图(kNN图);
步骤二:分裂稀疏图为小partitions;
步骤三:合并partitions;
Chameleon没有考虑簇与簇之间的连通性
网友评论