异常值是每个人都知道的统计问题之一,但大多数人都不确定要如何处理。许多统计量(如平均值,标准差和相关系数)以及每个基于这些数值的统计量都对异常值高度敏感。由于常见统计过程的假设(如线性回归和ANOVA)也是基于这些统计数据,因此异常值可能会干扰你的分析。
在决策之前调查异常值的性质非常重要。
- 如果异常值是由于错误输入或测量数据造成的,那么应该删除异常值:
例如,我曾经分析过一个数据集,其中有一位女性的体重记录为19磅。 我知道这是不可能的。 她的真实体重可能是91,119或者190磅,但由于我不知道哪一个,我只能删掉这个异常值。
- 如果异常值不会改变结果但确实会影响假设,则可以删除异常值。 但请注意你的论文的脚注。
下图中是否存在异常值都不会改变回归线:
![]()
-
更常见的是,异常值会影响结果和假设。 在这种情况下,简单地删除异常值是不合理的。你可以同时使用和不使用它来进行分析,但是你应该至少在脚注中说明哪些数据被删除以及删除后对结果的影响。
- 如果异常值导致重要的关联性,则应删除异常值,而且不应在分析中报告任何重要性。
在下图中,很明显可以看出是异常值导致X和Y存在相关性。没有异常值,X和Y之间是没有相关性的,因此回归系数并不能真实地描述X对Y的影响。
![]()
那么在你不应该删除异常值的情况下,你会怎么做?
一种选择是尝试进行转换。平方根和对数转换都会得到很高的数字。如果异常值是一个独立变量,则可以减少单个点的影响。
另一种选择是尝试不同的模型。这应该谨慎进行,但可能是非线性模型更适合。例如,在示例3中,可能指数曲线拟合包含异常值的完整数据。
无论采用哪种方法,你都需要充分了解你的数据和研究领域。尝试不同的方法,看看哪个更具有理论意义。
网友评论