美文网首页
重新思考假设检验

重新思考假设检验

作者: 冯昉中 | 来源:发表于2018-12-04 12:23 被阅读0次

推论统计,首先想到的是假设检验,H_0,H_1,T_value, Z_value 等等,学习的时候都会做,然而仔细想想,真明白吗?回想我自己的经历,可能经过了3-4轮的思考,终于从应用深入到了到底那是什么的程度。现在,请你来与我一同分享我对假设检验的理解。

Q1: 假设检验是什么?

假设检验是一种反证法。

统计,分为描述统计与推论统计。顾名思义,描述统计如同画画似的,将一个事务的特征用数字描绘出来,每一幅数码相片背后是一组组的数字,将这组数字经过总结(我认为总结便是降低维度), 变成容易记忆的数字,这些数字能在人的脑海里刻画出一个可识别的形象。那便是描述统计。

推论统计,根据已有现状去推断整体,寻找规律。回归像是求同;聚类,像是求异;假设检验判别是同是异,H_0是同,H_1是异。

"幸福的家庭大都相似,不幸的家庭却各有不同"---托尔斯泰

用True or False 来求证因何而异实在是太困难了,不能证明,便去证伪。不同,便是异,Genius!假设检验在做“不同”的证明,不能证明“不同”,则不能拒绝H_0,那么便是H_1了。当这里会有中间地带,称为Type I, Type II Error,HORN,拒绝了不该拒绝的,或没有拒绝改拒绝的。这已是细枝末节,不影响整体概念。

Q2: 假设检验的内容是什么?

两组数。不是单个数值的比较,而是两类数值的比较。用假设检验的方法来证明这两类数是否存在差异。

这里指的数组是什么概念呢?比如人的身高,是一组数,并且这组数有一定特征,大致分布在0.5米至2.3米之间,身高在1.6~1.8米的人占大多数。如果,我们想知道人的身高与猩猩的身高是否有差异,将两组数进行比较,这两组如果分布形态上一致,说明没有差异,不一致,说明有差异。

这里我们充分利用描述统计学的内容,将两个总体的分布进行比较,平均数,中位值,离散程度,偏度,峰度等。好在统计可以将概率函数描绘出来,根据身高的值得知在这个身高下有多少比例的人或猩猩。几个数字一碰便得知了两组数据是否一致。

若已经充分了解了这两组数,不用假设检验,直接比较好了。然而,实际上没有可能去统计所有的人和猩猩的身高。退一步,抽样来推断总体,由总体去比较。这是假设检验的核心内容。

Q3: 抽样与总体

抽样这东西犹如盲人摸象,天知道摸到什么,能描绘出什么?拿抽样的去比较,若样本与总体并非相似,那这个比较也就没有意义了。好在中心极限定理帮了大忙,抽样次数越多,抽样的平均值逼近总体平均值,且总体平均值呈现正态分布,其离散程度逐渐缩小,最后就是一根直线了。

n = [10,100,1000]
p = 0.5

fig, AX = plt.subplots(ncols=3, nrows=1, figsize=(15,5), dpi=288)
for i, ax in enumerate(AX):
    se = np.sqrt(p*(1-p)/n[i])
    distribution = stats.norm(loc = 0, scale=se)
    x = np.linspace(-1,1,100)
    y = distribution.pdf(x)
    ax.plot(x,y)
    ax.set_title('n={}'.format(n[I]))

image.png

👆三幅图,分别为抽样10次,100次,1000次,平均数的分布。平均数已知了,那么只要平均数不等,两组数则不等,轻松证伪。

Q4: 置信区间与显著水平

样本的平均值所反映出总体的平均值不是一个确定的值,样本不等于总体,依然这个平均值是一个范围,有其分布,抽样多了,这个分布呈现正态分布。

import scipy.stats as stats

norm = stats.norm(0,1)
x = np.linspace(-4,4,200)
y = norm.pdf(x)
image.png

正态分布是一个概率曲线(pdf),线上的点由(x,y)坐标组成,知道x就知道y。曲线下至x轴所有的面积是累积概率(cdf),左侧曲线开始的地方cdf,累积概率为0,右侧结束的地方累积概率为1,显著水平若设5%,置信区间为[2.5%, 97.5%],当然置信区间可以移动,看用途了。

显著水平明显是个人设,用于确定置信区间上限、下限,以确定累积概率对应在x轴上的值,大于、小于都拒绝,说明两组数平均值相同的概率小于显著水平(概率,累积概率)。

Q5: 自由度

再回到总体与样本。抽样次数越多,抽样的平均值离总体平均值越近,方差越小。自由度,其实就是样本数量。样本数量少,样本与总体的离差大,更难证伪。找一个人和一个猩猩就能证明整体身高差异了?显然不行。除非差异巨大,比如大象和蚂蚁,一头大象,一只蚂蚁足以。

image.png

只要有差异,即使很小,若样本足够大,也是能发现的。总体上均值有差异,便是有差异,怎么都有差异。

总结

假设检验,在干什么?

  1. 比较总体的均值是否有差异;
  2. 不知道均值所以要从样本去推断总体的均值;
  3. 中心极限定理告诉我们大多数情况下,抽样次数多了,均值呈现正态分布;
  4. 用推断的均值分布来度量是否所比较的总体均值相等;
  5. 样本数量少的情况下,离散程度上需要对其惩罚,不能简单套用标准正态分布(z检验与t检验的差别)
  6. 不是所有的均值都呈现正态分布,比如方差的均值。

相关文章

  • 重新思考假设检验

    推论统计,首先想到的是假设检验,, 等等,学习的时候都会做,然而仔细想想,真明白吗?回想我自己的经历,可能经过了3...

  • 统计学笔记6 假设检验和p值

    假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差...

  • Python做假设检验

    目前看到的最全的假设检验的文章 python假设检验

  • R语言学习笔记_04

    假设检验 在R的内置函数中几乎囊括了所有常用的假设检验,常用的假设检验包括: 相关性分析包括Pearson相关系数...

  • 如何做推论统计分析报告?

    看本文内容前,确保你已经学过之前文章中的“假设检验”: 如何用最通俗易懂的方式理解假设检验 前面我们通过《假设检验...

  • 学习汇总

    python python假设检验(很全):python假设检验统计功能包:scipy 统计模型包:statsmo...

  • 生信课程笔记11-关于p值

    统计假设检验 Statistical hypothesis testing 假设检验是使用来自总体的采样(samp...

  • 【简单生活简单记】1.24小记

    ✨学习假设检验的一天。 假设检验: 假设检验基本思想、左右侧检验与双侧检验、Z检验基本原理、Z检验实例、T检验基本...

  • 《商务与经济统计》第12版学习9

    第9章 假设检验 在统计推断中如何利用假设检验来确定是否应该拒绝关于总体参数值的说法。 在假设检验中,我们首先对总...

  • 【原创】概率论9

    第九天,假设检验。 什么是假设检验? 假设检验是一种基于概率的反证法。 基于概率, 证明工具为反证。 如果能证明一...

网友评论

      本文标题:重新思考假设检验

      本文链接:https://www.haomeiwen.com/subject/xvqmcqtx.html