美文网首页
(译)异常值处理

(译)异常值处理

作者: RossH | 来源:发表于2019-03-15 17:01 被阅读0次

异常值是每个人都知道的统计问题之一,但大多数人都不确定要如何处理。许多统计量(如平均值,标准差和相关系数)以及每个基于这些数值的统计量都对异常值高度敏感。由于常见统计过程的假设(如线性回归和ANOVA)也是基于这些统计数据,因此异常值可能会干扰你的分析。
在决策之前调查异常值的性质非常重要。

  1. 如果异常值是由于错误输入或测量数据造成的,那么应该删除异常值:

例如,我曾经分析过一个数据集,其中有一位女性的体重记录为19磅。 我知道这是不可能的。 她的真实体重可能是91,119或者190磅,但由于我不知道哪一个,我只能删掉这个异常值。

  1. 如果异常值不会改变结果但确实会影响假设,则可以删除异常值。 但请注意你的论文的脚注。

下图中是否存在异常值都不会改变回归线:


  1. 更常见的是,异常值会影响结果和假设。 在这种情况下,简单地删除异常值是不合理的。你可以同时使用和不使用它来进行分析,但是你应该至少在脚注中说明哪些数据被删除以及删除后对结果的影响。


  2. 如果异常值导致重要的关联性,则应删除异常值,而且不应在分析中报告任何重要性。

在下图中,很明显可以看出是异常值导致X和Y存在相关性。没有异常值,X和Y之间是没有相关性的,因此回归系数并不能真实地描述X对Y的影响。


那么在你不应该删除异常值的情况下,你会怎么做?
一种选择是尝试进行转换。平方根和对数转换都会得到很高的数字。如果异常值是一个独立变量,则可以减少单个点的影响。
另一种选择是尝试不同的模型。这应该谨慎进行,但可能是非线性模型更适合。例如,在示例3中,可能指数曲线拟合包含异常值的完整数据。
无论采用哪种方法,你都需要充分了解你的数据和研究领域。尝试不同的方法,看看哪个更具有理论意义。


原文链接:Outliers: To Drop or Not to Drop

相关文章

  • (译)异常值处理

    异常值是每个人都知道的统计问题之一,但大多数人都不确定要如何处理。许多统计量(如平均值,标准差和相关系数)以及每个...

  • 51信用卡-Android开发

    异常处理 编 译 时 异 常 也 叫 CheckedException对 Checked 异常处理方法有两种:1 ...

  • 异常值处理

    四分位法 jianshu_outlierCSDN_异常值

  • 异常值处理

    使用3西塔准则来识别异常值 3西塔准则具有一定的局限性,因此该原则只对正态分布或近似正态分布数据有效,其他分布无限...

  • 异常值处理

    异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值[1] 。与平均值的偏差超过三倍标准差的测定...

  • R语言-07异常值处理

    删除异常值所在行 盖帽法处理异常值

  • 5.2 异常值处理

    异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 ...

  • 异常值的处理

    概述 异常值分析是检验数据是否有录入错误以及含有不合常理的数据;异常值是指样本中的个别值,其数据明显偏离其余的观测...

  • 数据预处理_异常值处理

    一、异常值 1.异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的...

  • 异·译·意

    我发现同时看两个人翻译的同一部作品是很有意思的事情,甚至让人有点欲罢不能。 我家书橱里有两本《枕草子》,一开始买的...

网友评论

      本文标题:(译)异常值处理

      本文链接:https://www.haomeiwen.com/subject/rdkrmqtx.html