美文网首页
《Discovering Statistics Using R》

《Discovering Statistics Using R》

作者: 新云旧雨 | 来源:发表于2020-03-15 17:57 被阅读0次

    新冠肺炎疫情期间本职工作比较忙。。。好久没更新简书了OTL

    笔记说明

    读《Discovering Statistics Using R》第四章 Exploring data with graphs中的4.7节箱形图 以及5.8.1节 处理离群值 做的笔记。主要是介绍箱形图和离群值。之前本系列笔记跳过了第四章的内容,因为对于用R作图我打算另开文集来写的。特意又跳回4.7节是因为按照之前笔记顺序该做如何处理离群值的内容了。

    示例数据

    一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的未去除极端值的版本DownloadFestival.dat

    # 数据导入
    library(rio)
    dlf <- import("data/DownloadFestiva.dat")
    head(dlf)
    
    ##   ticknumb gender day1 day2 day3
    ## 1     2111   Male 2.64 1.35 1.61
    ## 2     2229 Female 0.97 1.41 0.29
    ## 3     2338   Male 0.84   NA   NA
    ## 4     2384 Female 3.03   NA   NA
    ## 5     2401 Female 0.88 0.08   NA
    ## 6     2405   Male 0.85   NA   NA
    

    箱形图

    箱形图是展示连续性变量情况很好的方法。
    箱体的中间表示中位数
    箱体的两端表示为下四分位数(Q1)和上四分位数(Q3)
    箱体两端向外分出两条“触须”,触须长度不超过1.5倍的四分位间距(interquartile range IQR=Q3-Q1)

    接下来我们使用箱形图来分性别(gender)展示示例数据中第一天卫生评分的情况(day1):

    library(ggplot2)
    festivalBoxplot <- ggplot(dlf, aes(gender, day1)) +
        geom_boxplot() + labs(x = "Gender", y = "Hygiene (Day 1 of Festival)")
    

    在生成的箱形图中我们可以看到女性组里有一个明显的离群值(outlier)。

    离群值

    离群值(outlier)也叫异常值,简单来说就是与其他数据点明显不同的测量值。在箱形图中:
    大于上四分位数+1.5倍四分位间距的值或者小于下四分位数-1.5倍四分位间距的值被定义为离群值。
    大于上四分位数+3倍四分位间距的值或者小于下四分位数-3倍四分位间距的值被定义为极端离群值(extreme outliers)。
    离群值对一些统计量影响很大(比如均值),因此有时需要留意。

    我们对原始数据按照day1变量降序排列后可以找到那个离群值:

    library(dplyr)
    dlf <- dlf %>% arrange(desc(day1))
    head(dlf)
    
    ##   ticknumb gender  day1 day2 day3
    ## 1     4158 Female 20.02 2.44   NA
    ## 2     4016 Female  3.69   NA   NA
    ## 3     3374   Male  3.58 3.35   NA
    ## 4     4264   Male  3.44   NA   NA
    ## 5     3371 Female  3.41   NA   NA
    ## 6     3338 Female  3.38   NA   NA
    

    离群值的处理

    发现离群值后有几种常用方法可以减少离群值对分析的影响。在应用这些方法前需要先检查一下离群值是否是数据错误录入造成。如果数据录入无误,主要有三种处理方法:

    • 剔除离群值
      当有理由认为该样本不属于目标总体时可以采用这种方式。
    • 数据转换
    • 更改测量值
      常见的具体更改方法:
      (1)用次高或次低的测量值替代
      (2)用Z分数反推出替代值。
      Z值大于3.29也是判定离群值的一种方法。据此可以反推Z值为3.29时对应测量值应该是多少:X=(Z×s)+\overline{X},用该值代替离群值
      (3)均值加或减2倍标准差,

    用if_else()或ifelse()进行数据修改

    有理由认为这个20.02的离群值应该是2.02由于错误录入造成的。这时应该去找原始数据进行核实。假设我们经核实确实应该是2.02,现在把它改正。
    这里我使用dplyr包的if_else()进行数据修改,其用法和R自带的ifelse()基本一致:if_else(condition, true, false, missing = NULL),当condition的判断为TRUE时返回true参数的值,当condition的判断为FALSE时返回false参数的值。

    dlf$day1 <- if_else(dlf$day1 == 20.02, 2.02, dlf$day1)
    head(dlf)
    
    ##   ticknumb gender  day1 day2 day3
    ## 1     4158 Female  2.02 2.44   NA
    ## 2     4016 Female  3.69   NA   NA
    ## 3     3374   Male  3.58 3.35   NA
    ## 4     4264   Male  3.44   NA   NA
    ## 5     3371 Female  3.41   NA   NA
    ## 6     3338 Female  3.38   NA   NA
    

    修改后再做一次箱形图:



    从箱形图中我们可以看出数据分布的范围、中位数水平、中间50%的数据分布的范围(箱体)、最高25%的数据分布范围和最低25%的数据分布范围。通过箱形图还可以看出数据分布是否对称:如果上下触须长度相近则数据分布大致对称。另外,触须以外的点展示了离群值的情况。

    相关文章

      网友评论

          本文标题:《Discovering Statistics Using R》

          本文链接:https://www.haomeiwen.com/subject/qwgexhtx.html