使用R语言进行卡方检验（chi-square test）

作者: 云中瑞麟 | 来源:发表于2018-08-23 20:07 被阅读1366次

文|程瑞林（山东大学第二医院足踝外科）
来源|（微信公众号）云中瑞麟（ID：ruilinfly）

瑞麟导读：
对于计量资料，临床医学研究中常用的统计分析方法是t检验；而对于计数资料，卡方检验是一个常用的统计分析方法。

最近看到一篇文章，里面分析了骨巨细胞瘤患者术后复发的比例，其中计数资料使用卡方检验（又称χ²检验），下面针对卡方检验的使用方法及其R语言实现方法进行简单介绍。

概念

卡方检验是一种用途很广的计数资料的假设检验方法，由卡尔·皮尔逊提出。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

可以分为成组比较（不配对资料）和个别比较（配对，或同一对象两种处理的比较）两类。

通常卡方检验的应用主要为：
1、卡方拟合优度检验
2、卡方独立性检验

例一

我们想知道喝牛奶对感冒发病率有没有影响，以下为数据统计的四格表：

表1 喝牛奶与感冒的相关性

通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%，两者的差别可能是抽样误差导致，也有可能是牛奶对感冒率真的有影响。

为了确定真实原因，我们先假设喝牛奶对感冒发病率是没有影响的，即喝牛奶喝感冒时独立无关的，所以我们可以得出感冒的发病率实际是（43+28）/（43+28+96+84）= 28.29%

所以，理论的四格表应该如下表所示：

表2 喝牛奶与感冒的相关性

即下表：

表3 喝牛奶与感冒的相关性

如果喝牛奶喝感冒真的是独立无关的，那么四格表里的理论值和实际值差别应该会很小。

那如何来描述这种差别呢，我们定义卡方值为

图1 卡方值计算公式

其中，A为实际值，T为理论值。

x2用于衡量实际值与理论值的差异程度（也就是卡方检验的核心思想），包含了以下两个信息：

实际值与理论值偏差的绝对大小（由于平方的存在，差异是被放大的）
差异程度与理论值的相对大小

根据卡方检验公式我们可以得出例1的卡方值为：

卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

卡方值（理论值与实际值差异大小）的意义是什么呢？为此我们再引入一个概念：

卡方分布的临界值

上一步我们得到了卡方的值，但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的？也就是说，怎么知道无关性假设是否可靠？

答案是，通过查询卡方分布的临界值表。

表4 卡方分布的临界值表

第一行表示显著性水平α
第一列表示自由度

这里需要用到一个自由度的概念，自由度等于V = (行数 - 1) * (列数 - 1)，对四格表，自由度V = 1。

对V = 1，喝牛奶和感冒（95%概率）不相关的卡方分布的临界值（最大）是：3.84。即如果卡方大于3.84，则认为喝牛奶和感冒（有95%的概率）相关。

【瑞麟描述】临界值3.84的意义表示：如果卡方值＞3.84，则纵列因素与横行因素不相关的的概念＜0.05（即显著性水平），也即纵列因素与横行因素相关的概念＞0.95。

显然1.077<3.84，没有达到卡方分布的临界值，所以喝牛奶和感冒独立不相关的假设没有被推翻。

【瑞麟】简单说，如果我们计算出的卡方值（表示实际值与理论值的差异，越大表示实际值与理论值越不符，即越有可能纵列因素会影响横行数值）大于临界值（列因素不影响横行值的范围：0~临界值），我们就排斥原假设（H0，即纵列因素不影响横行的因素的变化），接受备择假设（H1：纵列因素对横行的因素变化有影响）；反之，卡方值小于临界值，即在（纵列与横行互不影响这一假设）理论范围内，无法推翻原假设，即无统计差异。

第二个例子：四格卡方检验的标准做法

我们想知道不吃晚饭对体重下降有没有影响，并获得以下数据：

表5：吃晚饭与体重的关系

建立假设检验：

H0：r1＝r2，不吃晚饭对体重下降没有影响，即吃不吃晚饭的体重下降率相等；
H1：r1≠r2，不吃晚饭对体重下降有显著影响，即吃不吃晚饭的体重下降率不相等。α=0.05

【瑞麟：H0为纵列因素对横行因素无影响；H1为有影响】

计算理论值

表6：吃晚饭与体重的关系-理论值计算，方法参考表2

3.计算卡方值
根据图1所示公式，计算出卡方值为5.498

查卡方表求P值

在查表之前应知本题自由度。按卡方检验的自由度v=（行数-1）×（列数-1），则该题的自由度v=（2-1）（2-1）=1，查卡方界值表，找到3.84，而本题卡方=5.498即卡方＞3.84，P＜0.05，差异有显著统计学意义，按显著性水平α=0.05水准，拒绝H0，可以认为两组的体重下降率有明显差别。

通过实例计算，对卡方的基本公式有如下理解：若各理论数与相应实际数相差越小，卡方值越小；如两者相同，则卡方值必为零。

卡方检验的修正

x2值表是数理统计根据正态分布的定义计算出来的。是一种近似，在自由度大于1、理论数皆大于5时，这种近似很好；当自由度为1时，尤其当1＜T＜5，而n＞40时，应用以下校正公式：

图2 卡方值计算方法的修正

如果观察资料的T＜1或n＜40时，四格表资料用上述校正法也不行，可参考预防医学专业用的医学统计学教材中的精确检验法【瑞麟：Fisher检验？】直接计算概率以作判断。

1.一般认为行×列表中不宜有1/5以上格子的理论数小于5，或有小于1的理论数。当理论数太小可采取下列方法处理：①增加样本含量以增大理论数；②删去上述理论数太小的行和列；③将太小理论数所在行或列与性质相近的邻行邻列中的实际数合并，使重新计算的理论数增大。由于后两法可能会损失信息，损害样本的随机性，不同的合并方式有可能影响推断结论，故不宜作常规方法。另外，不能把不同性质的实际数合并，如研究血型时，不能把不同的血型资料合并。

2.如检验结果拒绝检验假设，只能认为各总体率或总体构成比之间总的来说有差别，但不能说明它们彼此之间都有差别，或某两者间有差别。

1.n ≥40，T ≥ 5. 用Pearsonc2统计量（非连续性校正）
2.当n≥40时，如果某个格子出现1≤T ≤5，则需作连续性校正【瑞麟：即R语言中chisq.test函数的参数correct=TRUE】。
3.n<40，或任何格子出现T<1，或检验所得的P值接近于检验水准a，采用Fisher确切概率检验。
——引自文献【6】

卡方检验试用条件【文献8】
1.随机样本数据；
2.卡方检验的理论频数不能太小.
两个独立样本比较可以分以下3种情况：
1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验.
2.如果理论数T＜5但T≥1,并且n≥40,用连续性校正的卡方进行检验.
3.如果有理论数T＜1或n＜40,则用Fisher’s检验.
上述是适用于四格表.
R×C表卡方检验应用条件：
1.R×C表中理论数小于5的格子不能超过1/5；
2.不能有小于1的理论数.
若不符合R×C表的卡方检验.可以通过增加样本数、列合并来实现.