美文网首页
统计之美:如何优雅理解卡方分布与卡方检验之精髓所在?(重磅)

统计之美:如何优雅理解卡方分布与卡方检验之精髓所在?(重磅)

作者: 实验诊断与临床 | 来源:发表于2024-08-23 07:48 被阅读0次

今天吃到味道极好的一道菜,你会不会想这个菜是怎么炒出来的,为啥这么好吃?


卡方分布是统计学中最重要的分布之一,卡方检验是以卡方分布为基础的一种假设检验方法。

   一、χ²分布   

χ2分布是由阿贝(Abbe)于1863年提出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成新的随机变量X,变量X的分布规律称为卡方分布(chi-square distribution),用χ²表示。

χ²分布是一种只由自由度ν一个参数决定的连续型分布,其概率密度函数如下:

概率密度曲线如图1:

图1 概率密度函数曲线(k为自由度)

图2 

函数我们是记不住的,根本记不住!!!

但定义很好记,一句话就是“正态变量平方和的分布就是卡方分布”,并且由图1和图2可知,χ²分布为一簇单峰正态分布曲线,当自由度ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称;当自由度ν→∞时,分布趋于正态分布。

此外卡方分布还有一些特点,平均值E(χ2)=ν,方差为:D(χ2)=2ν,概率分布曲线下面积为1。

所以,可以说卡方分布其实源自于正态分布。

   二、由卡方分布过渡到方差抽样分布   

不知道你有没有发现,最重要的问题还是来了。

上面讲的是n个独立的随机变量,但实际工作中,我们往往要分析的是来自总体的某样本,怎么办呢?

样本方差(s2)是可以根据样本计算,n为样本数,(n-1)*样本方差除以总体方差(σ2),就构造了一个新的变量Q,这个新的变量Q服从自由度为n-1的卡方分布。

新变量Q:

有点不好理解吧,为啥这个新的变量服从卡方分布呢?

其一,卡方分布是正态变量平方和的分布,这里总体方差已知,当成一个固定值,那么变量就是样本方差,样本方差就是正态变量的平方和除以(n-1)呀。

其二,然后,因为计算样本方差的时候除了n-1,那么最终构建的新变量乘以n-1,这样其实就转化为了正态变量的平方和了,是服从卡方分布的。

其三,为什么这里的自由度是n-1,而不是n。究其原因在于样本数为n,意味着只有 n-1 个是独立取值的,剩余一个为平均值。

所以呀,可以使用卡方分布来构造总体方差的置信区间。

在1-α置信水平下:

所以可得总体方差置信区间为:

三、由卡方分布过渡到卡方检验

同样的道理,在实际应用中,可用χ²分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差,表示观察值与理论值之问的偏离程度。

  • 设Ai代表某个类别的观察频数,Ti代表基于零假设计算出的理论频数,Ai与Ti之差称为残差。

  • 残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与理论频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,因此可以将残差平方后求和。

  • 残差大小是一个相对的概念,相对于理论频数为10时,理论频数为20的残差非常大,但相对于期望频数为1000时20的残差就很小了。考虑到这一点,又将残差平方除以理论频数再求和,以估计观察频数与理论频数的差别。

所以有了上述公式,并且服从卡方分布。

   四、χ²检验的基本思想   

举例:某研究者想比较成年男性和女性高血压发生率是否有差异,随机抽取200名成年男性和185名成年女性,其中男性高血压患者43名,女性高血压20名,想知道这个差异是抽样误差所致还是确实如此,该问题可用卡方检验来回答。

H0:男性组和女性组总体分布相同,π1=π2=π

H1:男性组和女性组总体分布不同,π1≠π2

上述为2×2列联表,基于H0成立,则两组的总体概率应该近似等于合并估计的概率,即π≈m1/n。

这个能否理解?

按照公式:

第一步,我们先得计算理论频数,T11=n1×π=n1×m1/n=200×63/385=33

则剩余几个理论频数分别为:T12=200-33=167,T21=63-33=30,T22=185-30=155。这就是基于H0假设成立,得到的理论分布情况,此时的四格表为:

括号内红色为理论频数,然后计算卡方值:

这是基于四格表基本公式计算出来的,还可以利用四格表专用公式计算:

得出χ²=7.608,自由度ν=1,查卡方分布表得知:

3.841<7.608,χ²值越大,概率越小。

所以,在α=0.05检验水准下,拒绝H0,差别有统计学意义,可认为成年男性和女性的高血压发生率不同。


统计学和数学之美,体现在它们对现实世界深刻而独特的理解方式上,它们不仅提供了解决问题的工具和方法,还揭示了隐藏在数据背后的规律和模式,让人们能够以更精准、更量化的方式来认识和解释世界。

相关文章

  • 卡方分布知识说明

    卡方分布定义 卡方分布的性质 卡方分布的数字特征 拓展SPSSAU卡方检验 卡方分布定义 设X1,X2,⋯,Xn是...

  • 卡方检验、T检验+F检验、方差分析、Z检验

    1、卡方检验: 卡方检验是用途非常广的以卡方分布(深入浅出统计学有讲)为基础的一种假设检验方法,它属于非参数检验的...

  • 非参检验

    总览 参数检验非参检验工具t检验、方差分析卡方检验、中位数检验特点正态分布、定距非正态、定类、定序 卡方检验是与期...

  • 医学临床试验文献统计方法解读(卡方检验)

    四、卡方检验 (一)文献中应用 文献中如此描述卡方检验的应用:”卡方检验用来比较试验组和控制组在被试分布、移植物分...

  • R实战|卡方检验及其可视化

    R实战|卡方检验及其可视化 卡方检验 卡方检验是一种以χ 2 分布为基础的用途广泛的假设检验方法。是一种非参数检验...

  • Chapter14 卡方分布

    卡方分布也是假设检验的一种方法,利用卡方分布来检验观察频数与期望频数之间的差异大小是否显著主要用途有:1.检验观察...

  • 卡方检验

    ①四格表卡方检验 ②配对卡方检验 ③RxC卡方检验

  • 干货!一文汇总卡方检验分析步骤

    一、类型 SPSSAU中卡方检验包括卡方检验、卡方拟合优度、配对卡方、分层卡方。 对于上述四种卡方检验区别如下: ...

  • 卡方检验:以SPSS和Graphpad为例演示

    卡方检验原理:卡方检验就是统计样本[https://baike.baidu.com/item/%E6%A0%B7%...

  • Python统计分析-卡方校验

    卡方校验 卡方检验属于非参数检验的范畴,用于统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值...

网友评论

      本文标题:统计之美:如何优雅理解卡方分布与卡方检验之精髓所在?(重磅)

      本文链接:https://www.haomeiwen.com/subject/wivwkjtx.html