什么是卡方分析
卡方分析又称卡方检验,主要用于两组样本或是两个分类变量之间相关性的分析。其根本思想是利用样本的实际频数和理论频数的吻合度,来判断样本是否符合预期。
卡方分析是基于卡方分布的统计方法。其主旨思想是:先假设实际和理论没有区别,然后计算卡方值,以此估计理论与实际的偏离程度,从而决定接受还是拒绝最初的假设。
卡方分析的计算

卡方分析能做什么
(1) 检验某个变量是否服从某分布
(2) 验证某分类变量的某类概率是否为指定值
(3) 验证某两类变量是否独立
(4) 控制某些变量后,另两个变量是相互独立
(5) 验证两种方法的效果是否一致
卡方分析对数据的要求
总体来说,数据量越多越好。每个类别期望频数不能小于1。要求期望频数大于5的数量超过4/5
典型案例
(1) 验证某随机变量是否服从某分布,用一个离散分布和一个连续分布来说明。



(2) 验证某分类变量的各类概率是否为指定值。如投硬币正反概率为0.5
(3) 验证某两类变量是否独立,我们有喝牛奶和得感冒两者的关系来说明,如图所示

(4) 控制某些变量后,两变量是否独立
(5) 验证两种方法效果是否一致,这里用民众对北京和南京的环卫满意度来说明,如图所示

写在最后
- 为什么H0假设一定是假设观察频数和期望频数一致、相同、无关。只有这样,才能从观察值,计算出期望值。从而检验观察值和期望值的差距。如果直接假设观察频数和期望频数不一致,不同,相关。那么将无法计算期望值。
- 计算自由度V=(行数-1)(列数-1),一般的显著度=0.05,可以在Excel中选择任意方格输入:=CHIINV(0.05,3),即可计算显著度=0.05时,自由度V=3的卡方值。查表值大于计算值,接受原假设,否则拒绝。
- 若观测频数值小于5,应该将该项合并至相邻项中
参考链接1
网友评论