
今天在了解pvalue时候,一开始看到这样的定义:
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
真的是一脸懵逼,继续看下面的解释:
如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。
还是一脸懵逼。
后面看到一个抛硬币的例子,才搞清楚这是什么意思,我试着转述给你看看:
家里面很乱,我和老婆都不想整理,但是又到了不得不整理的时候了。
这时候,老婆掏出一枚硬币,说要不我们抛硬币决定吧。正面的话她整理,反面的话我整理。
我感觉有点不对劲,不过还是先假设(原假设)硬币是没有问题的,也就是正反面出现的概率都是0.5。
当然了,大胆假设,小心验证。
我拿着硬币,悄悄地跑到一边,连续扔了五次,发现每次都是出现反面。
在原假设为真的情况下,连续五次抛到反面的概率是多少呢?
0.5^5 = 0.03125
这个概率也太小了吧,所以我拒绝原假设,也就是怀疑这枚硬币是有问题的。
python的scipy包有个方法ttest_ind,可以计算pvalue。

为了方便理解,简单举例说明一下。
有a、b两组学生的得分情况,其中a组学生没有上补习班,b组学生上了补习班。
ttest_ind的原假设是a、b两组的均值是完全一致的,默认的情况下方差也是完全一致的。也就是说两组学生的得分不会有多大的差异,是否有上补习班没有多大区别。
这里计算得到的pvalue是0.0378,是如果上补习班和不上补习班真的没有什么差异的话,两组得分出现这样情况的概率。
这样的概率很低,我们有充分的理由拒绝原假设。也就是说上不上补习班,对成绩是有影响的。pvalue的值越小,影响就越大。
网友评论