美文网首页
《Discovering Statistics Using R》

《Discovering Statistics Using R》

作者: 新云旧雨 | 来源:发表于2019-12-07 10:40 被阅读0次

    笔记说明

    读《Discovering Statistics Using R》第五章 Exploring assumptions做的笔记。本笔记对应章节为5.5.1,主要介绍正态性假设及如何用图示法考察正态性假设。

    数据来源:https://studysites.uk.sagepub.com/dsur/study/articles.htm

    统计分析中4个常见的假设

    不同的统计模型有不同的假设(assumptions),这些假设为真是这些模型能够准确反映实际的前提。
    基于正态分布的大多数参数检验有4个基本假设:

    • 正态分布
      实际上在不同的情况下正态性假设的含义是不同的。简而言之,在假设检验中一般总是需要某些东西是正态分布的(一些情况下是样本分布,另一些情况下则是模型的误差)。
    • 方差齐性
      进行组间比较时,方差齐性意味着不同组样本背后的总体的有着相同的方差;考察相关性时,方差齐性意味着随着一个变量的值在不同水平上变动,另一个变量的方差是稳定不变的。
    • 定距变量
      按照数据类型,变量可以分为四种:定类,定序,定距,和定比,这四种类型由低到高,高级类型的变量可以使用低级类型变量的分析方法,但反过来不行。《Discovering Statistics Using R》中介绍的大部分统计方法需要数据类型至少满足定距变量的要求。对定距变量的数据可以进行分类、排序、加减运算,不要求乘除运算。定距变量值之间的差值有实际意义。一般我们通过常识来判断这个假设是否符合。
    • 独立性
      这个假设和正态性假设一样,具体含义取决于使用的统计方法。在一些情况下独立性是指一个样本的数据值不会受到其他样本数据值的影响;在重复测量的设计中,在同一个研究对象上得到的多个数据点之间是不独立的,在这里独立性是指不同研究对象之间相互不影响。

    正态性假设

    正态性假设并不是要求数据符合正态分布的,而是要求抽样分布(所使用的统计方法对应的统计量的分布)符合正态分布。问题在于我们无法直接观测到抽样分布的样子。
    由中心极限定理我们知道:

    • 如果样本数据近似服从正态分布,那么抽样分布也会近似服从正态分布。
    • 样本量足够大时,抽样分布近似满足正态分布——无论样本数据的分布形状如何。

    在回归分析中,正态性假设是指模型的误差符合正态分布。
    常用的考察正态性假设的方法有:图示法、计算偏度系数峰度系数、正态性检验。

    图示法-直方图

    可以通过作直方图来观察数据分布的形状从而判断数据是否近似服从正态分布。
    示例数据:一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的去除极端值后的版本DownloadFestival(No Outlier).dat

    library(rio)
    library(ggplot2)
    
    # 数据导入
    dlf <- import("data/DownloadFestival.dat")
    head(dlf)
    
    ##   ticknumb gender day1 day2 day3
    ## 1     2111   Male 2.64 1.35 1.61
    ## 2     2229 Female 0.97 1.41 0.29
    ## 3     2338   Male 0.84   NA   NA
    ## 4     2384 Female 3.03   NA   NA
    ## 5     2401 Female 0.88 0.08   NA
    ## 6     2405   Male 0.85   NA   NA
    
    hist.day1 <- ggplot(dlf, aes(day1)) + 
      geom_histogram(aes(y = ..density..), colour = "black", fill = "white") +
      labs(x = "Hygiene score on day 1", y = "Density")+ 
      stat_function(fun = dnorm, 
                   args = list(mean = mean(dlf$day1,na.rm = TRUE), 
                                 sd = sd(dlf$day1, na.rm = TRUE)), 
                   colour = "black", size = 1)
    

    ggplot(dlf, aes(day1))指定对dlf数据的day1变量作图。
    geom_histogram(aes(y=..density..), colour = “black”, fill=”white”)做直方图,设定线颜色为黑色,填充颜色为白色,注意我们指定画密度直方图而不是频率直方图。因为我们之后还想画正态分布曲线来进行比对。
    labs(x = “Hygiene score on day 1”, y = “Density”)设定横轴纵轴的标签。
    stat_function()中用dnorm()函数绘制出以样本数据均值为均值,样本数据标准差为标准差的正态曲线。

    hist.day1

    图示法-Q-Q图

    还可以用Q-Q图(quantile-quantile图)来检查数据分布是否近似正态分布。分位数(quantile)就是把数据分为特定等份得数据值,比如二分位数(即中位数)就是把数据二等分的数值点。Q-Q图中以样本数据的分位数作为纵坐标,横坐标是假设数据服从正态分布情况下计算出的各数据点的分位数。如果数据近似服从正态分布,则 Q-Q图上的点应该近似排列为一个一三象限的对角线。

    # Q-Q图
    qqplot.day1 <- qplot(sample = dlf$day1) +
      labs(x = "theoretical quantiles", y = "data quantiles")
    qqplot.day1
    
    qqplot.day1

    从直方图和Q-Q图的结果看出day1数据近服从正态分布
    用图示法考察数据正态性的缺点是比较主观。

    相关文章

      网友评论

          本文标题:《Discovering Statistics Using R》

          本文链接:https://www.haomeiwen.com/subject/ntnmwctx.html