美文网首页
异常值的识别与处理,看这一篇就够了

异常值的识别与处理,看这一篇就够了

作者: spssau | 来源:发表于2020-09-04 11:17 被阅读0次

    在数据分析工作中,面对收集而来的数据,数据清洗是首要环节。而异常值处理是其中的一个重要部分。下面就给大家介绍一下如何处理数据中的异常值。

    一、异常值判断

    何为异常值?

    异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。异常值分析就是要将这些离群点找出来,然后进行分析。

    异常值判断

    在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:

    (1)数字超过某个标准值

    这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。

    比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。

    又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。

    (2)数据大于±3标准差

    3σ 原则是在数据服从正态分布的时候用的比较多,在这种情况下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。

    在数据处理的时候,按照正态分布的性质,三个标准差以外的数据都可以被看作是错误的数据从而排除掉。

    二、异常值的鉴别

    (1)箱盒图

    箱盒图很适合鉴别异常值,具体的判断标准是计算出数据中的最小估计值和最大估计值。如果数据数据超过这一范围,说明该值可能为异常值。箱盒图会自动标出此范围,异常值则用圆圈表示。

    SPSSAU【可视化】--【箱线图】可完成此操作。


    SPSSAU 箱线图

    (2)描述分析

    描述分析可以得到数据的最大值、最小值、四分位值等。通过描述分析查看出数据中有无极端值,并将极端值剔除。不过描述分析没有箱盒图展现的直观,一般可以初步筛查时使用。

    SPSSAU【通用方法】--【描述】可完成此操作。

    SPSSAU 描述分析


    (3)散点图

    散点图通过展示两组数据的位置关系,可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系,通常在研究数据关系,如进行回归分析前,都会先做散点图观察数据中是否存在异常值。

    SPSSAU【可视化】--【散点图】可完成此操作。

    SPSSAU 散点图


    三、异常值处理

    异常值的处理分为三种:设为缺失值、填补、不处理。

    (1)缺失

    设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值“干掉”,相当于没有该异常值。如果异常值不多时建议使用此类方法。

    (2)填补

    如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数、填补数字0共五种填补方式。

    (3)不处理

    一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。

    四、异常值操作

    • SPSSAU操作

    判断有异常值后可以通过SPSSAU【数据处理】--【异常值】进行处理。

    SPSSAU 异常值


    此处可以对缺失值进行填补或设为Null,即空值。也可以对异常值进行处理。设置标准由分析人员自行设定,然后点击“确认处理”按钮即可生效。

    • 注意事项

    1、异常值带微弱主观性,判定没有固定标准,一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。


    2、异常值一旦处理则无法恢复,建议先备份数据再操作。

    相关文章

      网友评论

          本文标题:异常值的识别与处理,看这一篇就够了

          本文链接:https://www.haomeiwen.com/subject/milzsktx.html