统计学(33)-P值的含义

作者: Zhigang_Han | 来源:发表于2020-02-03 14:47 被阅读0次

    P值是一个非常关键的指标。

    不少人学了多年统计,却始终对P值有所误解,如有的人认为P值是零假设正确的概率,P值越小,零假设越不正确。这是一种非常错误的理解,因为我们是无法说零假设正确或错误的概率有多大的。???

    1、P值的定义

    实际上,P值是关于数据计算结果的概率,较为官方的说法是,在零假设成立的前提下(注意这一前提),计算出至少这么大的统计值,这种情况有多大可能是偶然发生的。

    2、一个例子

    假定某学校想了解男生和女生的考试成绩是否不同,分别从所有男生和女生中各随机抽取25人,获取他们的考试成绩。如何通过假设检验思想来证明这一问题呢?
    步骤1:
    做出假设。
    一般我们设定零假设为男生和女生得考试成绩相等吗,即差值为0。

    image.png
    image.png
    步骤2:
    收集数据。
    计算出男生和女生的平均考试成绩分别为76.1分和78.6分,二者的差值为2.5。
    (1)考虑一个问题:既然我们假设男生和女生的考试成绩差值为0,而根据数据计算的差值却是2.5,这怎么解释呢?
    首先要理解一点,我们并没有计算学校中所有男生和女生的平均考试成绩,而是抽样50人,计算样本统计量。既然是抽样,就不可避免地存在抽样误差。也就是说,即使学校所有男生和女生的考试成绩差值真的为0, 由于抽样误差的原因,样本中的男生和女生考试成绩差值也未必正好为0。所以我们就得判断,差值2.5 距离0 到底算不算远?
    (2)如何判断呢?
    这就需要借助分布了。下图就是以0为中心的分布,根据中心极限定理,假定总体差值为0, 如果多次抽样,那么每次抽样所得到的差值应该都在0附近,如0.4 、-0.6等。如果偏离0太远,那很有可能并非来自(差值为0 的)这个总体。
    image.png
    从上图不难看出,当差值为2.5的时候(图中竖线所示位置),右侧面积为0.02,这就是P 值。它反映了:如果总体中男生和女生的考试成绩差值为0, 那么,在一次抽样中出现差值=2.5(甚至比2.5还要大)的概率只有2% 。可以这么理解:即使总体中男生和女生的考试成绩差值为0, 抽样误差也会导致样本中男生和女生的考试成绩差值不等于0, 但是出现2.5 (甚至比2.5 还要大)这么大的差值,只有2%的可能性是由抽样误差造成的。换句话说,很可能不是抽样误差造成的,而是真的有这么大的差异。
    刚才说的只是右侧面积,但由千备择假设是 μ 女-μ 男 不等于0, 也就是说,虽然在这次抽样中计算结果是女生考试成绩-男生考试成绩=2.5, 但理论上也有可能出现男生考试成绩高于女生的情况,因此这是一个双侧检验。在双侧检验中需要同时考虑分布两侧的面积,所以最终计算的P值并不是0.02, 而是0.04(两侧阴影部分的面积)。
    P值的解释:
    如果从理论上来讲,那么P值反映的是:假定在该学校中进行重复抽样,共抽样100次,计算男生和女生的平均考试成绩,这样可以得到100个差值。由于抽样误差的存在,这100 次抽样每次计算的差值很可能都不等于0, 但理论上应该最多只有4 个样本的差值大于2.5或小于-2.5 。

    相关文章

      网友评论

        本文标题:统计学(33)-P值的含义

        本文链接:https://www.haomeiwen.com/subject/kcfhxhtx.html