美文网首页
异常值检查与处理

异常值检查与处理

作者: ZhangShiWen | 来源:发表于2018-08-22 10:39 被阅读0次

异常值的定义:

异常值,即在数据集中存在不合理的值,又称离群点,如下所示:

异常值判别方法:

1.简单统计法

对属性值进行一个描述性的统计,从而查看哪些值是不合理的。比如:对待一个人的身高,不可能说有人的身高出现3m等以上的;如果是能使用图像直接显示数据的话,可以直观的直接直观的从图片中得出异常值

2. 3δ原则

当数据服从正态分布:

根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。 因此,当样本距离平均值大于3δ,则认定该样本为异常值。

当数据不服从正态分布:

当数据不服从正态分布,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定。

3.箱型图分析

箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值,箱型图如下图所示:

首先我们定义下上四分位下四分位

上四分位我们设为 U,表示的是所有样本中只有1/4的数值大于U 

同理,下四分位我们设为 L,表示的是所有样本中只有1/4的数值小于L

那么,上下界又是什么呢

我们设上四分位与下四分位的差值为IQR,即:IQR=U-L

那么,上界为 U+1.5IQR ,下界为: L - 1.5IQR

箱型图选取异常值比较客观,在识别异常值方面有一定的优越性。

4、格拉布斯检验法 

1

2马氏距离法 

下图是方法步骤 

异常值的处理方法常用有四种:

1.删除含有异常值的记录

2.将异常值视为缺失值,交给缺失值处理方法来处理

3.用平均值来修正

4.不处理

参考

https://blog.csdn.net/xzfreewind/article/details/77014587

https://blog.csdn.net/pandacsu/article/details/71159463

相关文章

  • 异常值检查与处理

    异常值的定义: 异常值,即在数据集中存在不合理的值,又称离群点,如下所示: 异常值判别方法: 1.简单统计法 对属...

  • 异常值处理

    四分位法 jianshu_outlierCSDN_异常值

  • 异常值处理

    使用3西塔准则来识别异常值 3西塔准则具有一定的局限性,因此该原则只对正态分布或近似正态分布数据有效,其他分布无限...

  • 异常值处理

    异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值[1] 。与平均值的偏差超过三倍标准差的测定...

  • Python异常值处理与检测

    缺失值处理 pandas判断缺失值一般采用 isnull(),然而生成所有数据的true、false矩阵,对于庞大...

  • R语言-07异常值处理

    删除异常值所在行 盖帽法处理异常值

  • 数据清洗

    一.缺失值处理(通过describe与len直接发现,通过0数据发现) 二.异常值处理(通过散点图发现) 处理方式...

  • 5.2 异常值处理

    异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 ...

  • (译)异常值处理

    异常值是每个人都知道的统计问题之一,但大多数人都不确定要如何处理。许多统计量(如平均值,标准差和相关系数)以及每个...

  • 异常值的处理

    概述 异常值分析是检验数据是否有录入错误以及含有不合常理的数据;异常值是指样本中的个别值,其数据明显偏离其余的观测...

网友评论

      本文标题:异常值检查与处理

      本文链接:https://www.haomeiwen.com/subject/piiznxtx.html