统计学（33）-P值的含义

作者: Zhigang_Han | 来源:发表于2020-02-03 14:47 被阅读0次

P值是一个非常关键的指标。

不少人学了多年统计，却始终对P值有所误解，如有的人认为P值是零假设正确的概率，P值越小，零假设越不正确。这是一种非常错误的理解，因为我们是无法说零假设正确或错误的概率有多大的。？？？

1、P值的定义

实际上，P值是关于数据计算结果的概率，较为官方的说法是，在零假设成立的前提下（注意这一前提），计算出至少这么大的统计值，这种情况有多大可能是偶然发生的。

2、一个例子

假定某学校想了解男生和女生的考试成绩是否不同，分别从所有男生和女生中各随机抽取25人，获取他们的考试成绩。如何通过假设检验思想来证明这一问题呢？
步骤1：
做出假设。
一般我们设定零假设为男生和女生得考试成绩相等吗，即差值为0。

image.png

image.png
步骤2：
收集数据。
计算出男生和女生的平均考试成绩分别为76.1分和78.6分，二者的差值为2.5。
（1）考虑一个问题：既然我们假设男生和女生的考试成绩差值为0，而根据数据计算的差值却是2.5，这怎么解释呢？
首先要理解一点，我们并没有计算学校中所有男生和女生的平均考试成绩，而是抽样50人，计算样本统计量。既然是抽样，就不可避免地存在抽样误差。也就是说，即使学校所有男生和女生的考试成绩差值真的为0, 由于抽样误差的原因，样本中的男生和女生考试成绩差值也未必正好为0。所以我们就得判断，差值2.5 距离0 到底算不算远？
（2）如何判断呢？
这就需要借助分布了。下图就是以0为中心的分布，根据中心极限定理，假定总体差值为0, 如果多次抽样，那么每次抽样所得到的差值应该都在0附近，如0.4 、-0.6等。如果偏离0太远，那很有可能并非来自（差值为0 的）这个总体。

image.png
从上图不难看出，当差值为2.5的时候（图中竖线所示位置），右侧面积为0.02,这就是P 值。它反映了：如果总体中男生和女生的考试成绩差值为0, 那么，在一次抽样中出现差值=2.5(甚至比2.5还要大）的概率只有2% 。可以这么理解：即使总体中男生和女生的考试成绩差值为0, 抽样误差也会导致样本中男生和女生的考试成绩差值不等于0, 但是出现2.5 (甚至比2.5 还要大）这么大的差值，只有2%的可能性是由抽样误差造成的。换句话说，很可能不是抽样误差造成的，而是真的有这么大的差异。
刚才说的只是右侧面积，但由千备择假设是 μ 女-μ 男不等于0, 也就是说，虽然在这次抽样中计算结果是女生考试成绩－男生考试成绩=2.5, 但理论上也有可能出现男生考试成绩高于女生的情况，因此这是一个双侧检验。在双侧检验中需要同时考虑分布两侧的面积，所以最终计算的P值并不是0.02, 而是0.04（两侧阴影部分的面积）。
P值的解释：
如果从理论上来讲，那么P值反映的是：假定在该学校中进行重复抽样，共抽样100次，计算男生和女生的平均考试成绩，这样可以得到100个差值。由于抽样误差的存在，这100 次抽样每次计算的差值很可能都不等于0, 但理论上应该最多只有4 个样本的差值大于2.5或小于-2.5 。

网友评论

本文标题：统计学（33）-P值的含义

本文链接：https://www.haomeiwen.com/subject/kcfhxhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

统计学（33）-P值的含义

1、P值的定义

2、一个例子

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

统计学

统计分析与数据挖掘