伯努利分布（二项分布）的假设检验

作者: 徘甚 | 来源:发表于2017-08-14 22:55 被阅读0次

概率质量函数(PMF)
伯努利分布（二项分布）的假设检验
分布
统计学
（1）概率统计
Beta分布快记
贝叶斯平滑
统计基础4-常见概率分布与假设检验
指数族分布|机器学习推导系列（九）
概率分布－python实现

要点

1. 单个二项分布检验用SPSS二项检验或者单样本T检验

2. 比较两个个二项分布差异性之类的可以用Anova或者独立样本T检验，后者可以得到置信区间。

3.上面的SPSS数据形式都是1和0的形式，用MATLAB生成即可。

譬如这样一个问题：

中国的互联网络覆盖率是不是在30%以上（5%显著性水平）？抽样显示，150个样本中，有57个是有网络覆盖的。

解题：
H0：网络覆盖率小于等于30%
H1：网络覆盖率在30%以上
如果H0成立，这个总体是一个典型的伯努利分布，伯努利分布是有总体标准差的，总体平均值为0.3，方差就是p(1-p)，这里的p就是0.3，标准差为 √（0.3*0.7），就不用拿样本的标准差进行估计了。

0	1
0.7	0.3

根据中心极限定理，样本均值的抽样分布是符合正态分布的，此正态分布的均值等于总体均值0.3，而这个分布的标准差等于总体标准差/√ 150 = 0.037，而我们这个特定的样本均值为57/150 = 0.38，可以计算出来z statistic（z 统计量，即离均值有多少个标准差远）为（0.38-0.3）/0.037 = 2.14。

因为我们的样本量大于30，所以我们查z table（下图），也就是这是个z test，单侧5%的z score 查表为1.65，也就是，假如原假设H0成立，我们调查的网络覆盖率38%或者更极端的情况发生的可能性小于5%，显然不太可能，所以我们拒绝原假设。

z table

附：SPSS二项检验

原始数据为57个1和93个0（因为我们要检验的是有网络覆盖），然后分析-非参数检验-旧对话框-二项，检验比例设置为0.3，结果如下，p值0.022表示如果原假设成立即覆盖率基本30%，则得到我们样本数据的概率为2.2%，显然不太可能（起码在5%显著性水平内），拒绝覆盖率基本是30%，应该是覆盖率显著大于30%的。