美文网首页
异常值处理

异常值处理

作者: 努力的日子 | 来源:发表于2020-05-31 21:48 被阅读0次

异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值[1] 。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。

第一,3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。

正态分布状况下,数值分布表:

数值分布 在数据中的占比

(μ-σ,μ+σ) 0.6827

(μ-2σ,μ+2σ) 0.9545

(μ-3σ,μ+3σ) 0.9973

注:在正态分布中σ代表标准差,μ代表均值,x=μ为图形的对称轴

二、箱线图检测异常值

  和3σ原则相比,箱线图依据实际数据绘制,真实、直观地表现出了数据分布的本来面貌,且没有对数据作任何限制性要求(3σ原则要求数据服从正态分布或近似服从正态分布),其判断异常值的标准以四分位数和四分位距为基础。四分位数给出了数据分布的中心、散布和形状的某种指示,具有一定的鲁棒性,即25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值通常不能对这个标准施加影响。鉴于此,箱线图识别异常值的结果比较客观,因此在识别异常值方面具有一定的优越性。

箱型图提供了识别异常值的一个标准,即异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。其中,QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。

相关文章

  • 异常值处理

    四分位法 jianshu_outlierCSDN_异常值

  • 异常值处理

    使用3西塔准则来识别异常值 3西塔准则具有一定的局限性,因此该原则只对正态分布或近似正态分布数据有效,其他分布无限...

  • 异常值处理

    异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值[1] 。与平均值的偏差超过三倍标准差的测定...

  • R语言-07异常值处理

    删除异常值所在行 盖帽法处理异常值

  • 5.2 异常值处理

    异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 ...

  • (译)异常值处理

    异常值是每个人都知道的统计问题之一,但大多数人都不确定要如何处理。许多统计量(如平均值,标准差和相关系数)以及每个...

  • 异常值的处理

    概述 异常值分析是检验数据是否有录入错误以及含有不合常理的数据;异常值是指样本中的个别值,其数据明显偏离其余的观测...

  • 数据预处理_异常值处理

    一、异常值 1.异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的...

  • pandas数据缺失值|异常值|重复值处理

    缺失值处理 检测异常值 检测异常值的方法:https://blog.csdn.net/qianfeng_dashu...

  • 机器学习常见使用误区

    1:处理异常值:比如adaboost 可能过度关注异常值,所以可以先过滤异常值2:为标准化 使用 L1/L2正则化...

网友评论

      本文标题:异常值处理

      本文链接:https://www.haomeiwen.com/subject/nexdzhtx.html