美文网首页统计与科研统计学常用方法
假设检验:非参数检验(卡方检验),参数检验(F检验,T检验,Z检

假设检验:非参数检验(卡方检验),参数检验(F检验,T检验,Z检

作者: shudaxu | 来源:发表于2019-12-16 10:05 被阅读0次
    • 首先讲置信度与置信区间:
      放在一起理解就行:即在置信度alpha的概率下,我们的参数落在置信区间beta内。
      例如:在置信度95%的情况下,扔均匀硬币100次正面的次数在40~60之间。
      这个例子中,我们知道扔硬币这个实验符合二项分布,我们通过其分布就能算出在95%的概率内,值域的分布。

    ** 非参数检验(卡方检验),参数检验(F检验,T检验,Z检验),方差分析(ANOVA)

    非参数检验与参数检验:

    ** 主要差异在于,非参数检验不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
    而参数检验一般需要正太性,方差齐次等假设,并已知总体均值,方差等值,或者从样本估计**

    卡方校验:(要求independent variables是离散变量)

    主要检验自变量与因变量的相关程度。(做变量区间划分,然后频次统计,跟相关性系数有所差异【Pearson系数为研究连续值变量之间的线性相关性】)
    前提:  卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者间的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。

    卡方统计量X^2=\frac {(Observation - Expected)^2}{Expected}

    其中Observation为实际值,Expected为理论值。(根据Observation,通过统计概率直接计算出Expected理论值)
    X^2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

    • 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
    • 差异程度与理论值的相对大小
    • 卡方检验是一种非参检验
      https://segmentfault.com/a/1190000003719712
    • 引申1:文本分类,CHI,TF*IDF的差异。(卡方校验用于判断词在分类上是否存在区分度,TFIDF主要是判断词在某文档上是否有区分度,因为卡方有”低频词缺陷”, 不能表征词在文档内的重要程度,因此,tf-idf是个不错的补充。)
      https://www.zhihu.com/question/44596828
    • 引申2:皮尔逊系数,用以检验两个随机变量的线性相关性。(多变量,协方差矩阵)

    F检验:(方差齐性检验)

    检测两个及以上的样本总体方差差异是否显著的检验。(对正太性敏感,需要前提为正太分布)
    *F检验是一种参数检验。

    • 基础
      H0假设:两个样本的variance没有差异(齐次)\sigma_1=\sigma_2
      H1对立假设:两个样本的variance有差异 \sigma_1>\sigma_2
      统计量F=\frac {\sigma_1}{\sigma_2}服从d_1=n_1-1,d_2=n_2-1的F分布

    F-Test in ANOVA(方差分析):

    分析多组均值是否存在显著差异【注意,在ANOVA中,Ftest也是用来检验均值的差异,在group=2时,两者存在等价关系F=t^2[4]】
    One-way Anova用于one continuous respond,以及一个多取值的dependent variables。
    Two-way Anova用于one continuous respond,以及多个多取值的dependent variables。
    https://zhuanlan.zhihu.com/p/57896471
    前提:方差齐次,正太敏感
    H0假设:多个样本均值没有差异(全部相等)
    H1假设:任意样本有差异

    ANOVA也使用F分布(与F检验相同)

    核心思路:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。假设不同组样本的数据的差异主要来自两个方面:1、实验因素差异。2、随机误差。这两个偏差值的比值构成了一个分布,通过我们对这个分布的了解来确定其显著性。
    intuition:
    (1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
    (2) [随机误差],如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内[自由度]dfw。
    总偏差平方和 SSt = SSb + SSw。
    组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一[总体],MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
    MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的[总体]

    • ANOVA与Linear Model在使用相同的encoding时,是等价的。[1]

    • 形式化解释:
      F=\frac {explained \ variance }{unexplained \ variance }
      or
      F=\frac {between \ group \ variability }{within \ group \ variability }
      之所以组间方差为explained variance,即“分组变量”解释了差异。而组内方差并没有被“分组变量”解释,所以是unexplained。
      F-test is a ratio of two Chi-squares:两个卡方统计量的比值。


      分子计算:组间方差:
      \sum_{i}^K \frac {n_i(\overline Y_i - \overline Y)^2} {K-1}
      分母计算:组内方差:
      \sum_{i}^K\sum_{j}^{n_i} \frac {(Y_{ij}-\overline Y_i)^2}{N-K}
      \overline Y_i是第i个group的均值,\overline Y为总样本均值,K为组数,n_ii组的样本量


      最后计算出F值之后,查临界值表(这个统计量服从d_1=K-1,d_2=N-K的F分布,F值越大,说明组间方差比组内方差大的越多。则说明组间均值存在差异。

    T检验:

    主要用于小样本(样本容量小于30)的两个平均值差异程度的检验方法(主要适用与总体方差未知的情况:即要用小样本的方差预估总体方差)
    *T检验也是一种参数检验。(对方差齐性敏感,需要先检验方差齐性【F检验】)
    对于与总体配对的T检验,要求方差齐次,只有方差齐了,才能反应其均值的差异。【不齐次有特殊处理方法】
    适用于已知总体均值(单样本配对时需要总体均值,双样本不需要),样本均值,样本方差(即样本少总体方差未知),且大致来自于正太分布(一般除非明显的长尾多峰等分布以外,都大致可以检验)

    • 基础:
      H0假设 :uu_0没有差异,u_0其实就是一个comparison value,u=u_0
      H1假设(单边):样本A均值大于B(或者小于)u>u_0
      H1假设(双边):两个样本均值有差异u>u_0 or u<u_0
      使用单边双边检验的区别:看你拒绝假设在两边,or一边
      均值检验中统计量T=\frac {u - u_0}{\sigma}服从d=n-1的T分布。n为样本量
      泛化形式T=\frac {E(x)-E(x_0)}{S(x)},其中E(x_0)为H0假设的对比值(comparison value),S(x)为对应变量x的标准差(一般总体参数未知)所以都是用样本标准差S,当我们对比的是均值时,均值的标准差用\frac {S(x)} {\sqrt n}来近似

    • 单总体样本:
      H0:样本均值与总体均值相同
      t=\frac{\overline X - u}{ \frac {s_x}{\sqrt n}}
      \overline X为样本均值,u为总体均值,s_x为样本标准差,\frac {s_x} {\sqrt{n}}为样本均值的标准差

    • 双总体配对样本:(形式与上述一致)
      t=\frac{\overline X - u_0}{ \frac {s}{\sqrt n}}
      u_0为0假设下差异值的均值。s为配对样本差值的标准差,\frac s {\sqrt n}为配对样本差值的均值的标准差

    • 双总体非配对样本:
      t=\frac {\overline X_1 - \overline X_2} {\sqrt {\frac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n2_2 - 2} (\frac 1 n_1 + \frac 1 n_2)}}
      注:两个独立样本的差的variance是:
      var(\overline X_1-\overline X_2)=\frac {S_1^2} n_1 + \frac {S_2^2} n_2
      注:实际例子见[14]

    这个公式是一个比值。一个普通的比喻是,t值为信噪比。
    配对t检验除了自由度有所差异,其实本身也差不多。
    上述公式本质分子都是均值,分母都是方差(均值的方差)。所以和z score本质也一样。

    1)根据待检验的实验,计算出t值
    2)根据t值查表获取p值,借此判断是否有统计学上的差异(不过通常做法是根据想要的p值【比如0.05】来查表获得临界的t值,再比较t值的大小来判断是否达到一定的显著性,t>临界t值,则效果显著)PS:p值代表原假设为真时【比如abtest两组无差异】,此事件发生的概率。【如果很小的话,则证明不太可能发生这样的情况,应该拒绝原假设,当然,拒绝也是有错误的可能性的,错误的概率也为p值,即我们认为abtest有显著差异其误判的概率是p】

    Z检验:(统计量的计算形式与t检验一致)

    统计量z=\frac {u-u_0} {\frac {S_0} {\sqrt n} }服从N(0,1)标准正太分布,查表即可知起临界值。
    t分布相较于标准正太分布来说,n越小的时候越平坦,intuition上来说,即是样本越小,需要拒绝H0的临界值越大(样本小,则需要数值上越明显的差异)
    Z检验核心思路与t检验类似。由于前提已知整体方差(基本要求样本数量大于30才能用样本方差代替整体方差,实际上样本量越大偏差越小),所以只适用于大样本量的数据。
    实际上与t检验的区别就在于,t检验用的t分布查临界值(针对小样本),Z检验直接查标准正太分布表即可

    T检验与F检验的差异[2]:

    1、本质上T检验用以检验均值差异,F检验方差差异(譬如用于回归模型拟合程度检验:回归模型Fscore[3]),但是在方差分析ANOVA中,对F-test的应用也是检验均值的差异。[4]
    2、T检验用于样本量小于30的情况(大于30,可视为population参数已知,用标准正太分布即可,z检验),F检验可以检验大规模数据
    3、F statistics可以视为T statistic的泛化[5]

    类似用途1:Ttest and Ftest for Regressor

    检验线性模型的有效性:
    1、对于Ttest是Linear Model的系数是否=0(H0)
    2、对于Ftest是模型explained variance是否显著大于unexplained variance
    差异:t-test一次只能test一个参数,而F test可以直接评估多个参数[8]。
    T=\frac {E(/beta)} {s.e.(\beta)},分母为\beta的标准差,在OLS中可以用s.e.(\beta)=\frac {\sqrt \frac {\sum (y_i-\hat y_i)^2}{n-2}}{\sqrt {\sum (x_i-\overline x)^2}}来估计参数的标准差。
    F=\frac {\frac {SSR-SSU}{p_r-p_u}}{\frac {SSU}{n-p_u}}SSR为sum of squares Restricted即限制了factors(independent variables)的模型,SSU为sum of squares Unrestricted即未限制factors的模型。p_r,p_u分别为他们参数的数量。

    类似用途2: T-test and Anova(F-test)

    在最简单的形式中,Anova(F-test)可以用以比较量2个或多个变量的均值,以此 generalize T-test。当在比较2组的时候,他们是等价的F=t^2
    我们拿个简单的例子,比较X_1X_2在均值上是否存在差异(均值差异来自变量自身的variance还是组间差别):
    T=\frac {\overline x_1 - \overline x_2}{\sqrt \frac {S_1^2+S_2^2}{n}}
    F=\frac {n \frac {(\overline x_1 - \overline x_2)^2} {2}} {\frac {S_1^2+S_2^2}{2}}=\frac {(\overline x_1 - \overline x_2)^2}{\frac {S_1^2+S_2^2}{n}}=T^2
    PS:这里为了做简单的推导,所以将样本量都设为n,其实将n_1,n_2带入也是等价的。

    ANOVA与OLS-LM的关系。

    ANOVA其实是 OLS-Linear Regression一种特例(ANOVA只能对离散的factor做分析),所有能从ANOVA作出的推断,都能直接从OLS中得出[9],他们假设也是一致的,categorical变量解释不同factor之间mean的variance(组间variance),模型不能解释的就是residual(组内variance)。他们俩的和等于所有respond对总样本均值的variance
    同时ANCOVA也经常用于[7]

    ANCOVA(协方差分析)与ANOVA的差别

    ANCOVA=ANOVA+Linear Regression。剔除Covariates带来的影响(erase the variable effects),关注treatment本身
    ANCOVA与Anova的区别在于,Based on LM,加入了一个continuous covariates,其他一样[6]

    Multi-factor(factorial) Analysis of Variance。

    注:two-way anova也是factorial anova。
    譬如我们要分析多个变量(independent variables),对dependent variable的影响程度。此时可以使用Multi-factor Analysis of Variance[10],或者有种思路是,看哪个factor解释的variance更多?用Ftest来解决:即A factor解释的variance是否显著大于B factor解释的variance。
    跳出这个框架,或者对自变量标准化的回归分析[11],这种方案可以针对任何连续与离散变量。

    Multivariate Analysis of Variance(MANOVA)

    不是FANOVA[12]

    关于p value

    一般在做假设检验的时候,我们可以通过如下步骤:
    1、设定alpha
    2、计算统计量t
    3、根据alpha查统计量阈值来确定拒绝还是接受(这里是比较统计量t即可,t>t阈)


    第二种方法,直接计算p value(对于不同假设分布有不同计算pvalue的公式)
    p value的含义是:

    在H0成立的情况下,Data产生的概率
    非常好理解,p值为在H0假设下,最终会产生得到当前数据的概率。
    如果p < alpha(比如0.05)则在H0的假设下,Data产生概率非常小(小于显著水平alpha),则应该拒绝H0
    (注:显著性水平alpha与p值pval不是一回事,不要搞混。alpha为我们设定的显著性水平,pval为计算出来概率。alpha是我们主观去设定的值,pvalue为伴随数据客观得到的值)

    关于第一类,第二类错误

    第一类错误:H0为真,但是拒绝了H0(弃真)。概率为alpha(常用的显著性水平,即是达到5%概率犯第一类错误的水平【即很大概率不会错误地拒绝H0】)
    一般我们计算时,p值就是真实情况下,犯第一类错误的概率。

    第二类错误:H0为假,但是接受了H0(取伪)。当我们设定了alpha后,如果显著性水平没有达到alpha的值,那么我们会接受假设H0。在这种情况下,仍然有一定概率H0为假。这个概率为Beta。
    1-\beta即为statistical power

    通常,alpha设置的比较大,则beta也会比较大,如下图:


    在统计量为蓝色竖线的时候,根据H0假设的分布,可以得到alpha,同时beta由H1的分布计算得来,但是通常我们不知道H1的真实分布,所以也无法精确计算beta

    实践中,由于beta无法精确计算,但是我们还是想要降低第二类错误的概率,所以要做有如下的认知,beta的大小取决于两个因素:
    1、H1假设与H0的距离,距离越大,beta越小。
    2、alpha的值。alpha越大,beta越小。(更倾向于拒绝H0,一类错误概率增加,则二类错误率减少)。
    通常在固定alpha,H1假设的情况下,要缩小beta需要增加样本量。

    关于置信度,置信区间

    置信水平(置信度)=1-显著性水平(alpha)
    置信区间:U,V。指在一定的置信水平下(1-alpha),被观测参数的真实值会落在区间(U,V)之内。
    PS:什么是统计量,统计量是样本的函数,且不依赖于任何未知的参数。比如样本均值就是个常用的统计量,mean(sample),它只依赖于所有样本的值。
    PSS:一般来说,主要用于做区间估计。

    Refer
    [1]:https://stats.stackexchange.com/questions/175246/why-is-anova-equivalent-to-linear-regression#:~:text=ANOVA%20and%20linear%20regression%20are%20equivalent%20when%20the%20two%20models,and%20use%20an%20identical%20encoding.&text=Somewhat%20aphoristically%20one%20can%20describe,simple%20regression%20with%20categorical%20variables.

    [2]https://askanydifference.com/difference-between-t-test-and-f-test/

    [3]F-score:https://en.wikipedia.org/wiki/Lack-of-fit_sum_of_squares

    [4]:ANOVA中F检验也是compare均值,当Anova在只有两组的情况下(对应Ftest中的2个group,Ttest中的配对),F检验与T检验等价:F=t^2。(F检验本身是比较两个方差,但是Anova中的F检验是比较between group variance,这个值其实是分组的均值的方差,所以本质也是在对比均值,即:组间均值的差异,是否来自于组内方差?)
    if you have only two groups/factor levels, the F-test statistic is the square of the t-test statistic, and the F-test is equivalent to the two-sided t-test
    https://stats.stackexchange.com/questions/411665/relation-between-f-test-and-t-test-are-they-mutually-exclusive
    也可以见上述简化版的等价推导。##T-test and Anova1(F-test)

    [5] F statistics 是T statistics的generalization,同理,chi-square statistics也是normal statistics的泛化

    [6]:http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova#:~:text=One%2Dway%20ANOVA%20has%20one,of%20Education%20and%20Zodiac%20Sign)
    [7]:http://www.differencebetween.net/science/mathematics-statistics/difference-between-ancova-and-regression/#:~:text=ANCOVA%20is%20a%20model%20that,linear%20to%20the%20independent%20variable.&text=Regression%20is%20the%20relationship%20of,one%20or%20more%20independent%20variables.

    [8]t-tests that can assess only one regression coefficient at a time, the F-test can assess multiple coefficients simultaneously

    [9]https://snaveenmathew.medium.com/simple-linear-regression-and-anova-c93ae51bdecb
    以及
    https://stats.stackexchange.com/questions/190984/anova-vs-multiple-linear-regression-why-is-anova-so-commonly-used-in-experiment#:~:text=ANOVA%20and%20OLS%20regression%20are,drawing%20from%20the%20test%20statistic).&text=ANOVA%20cannot%20be%20used%20for,as%20the%20more%20limited%20technique.

    [10]https://www.itl.nist.gov/div898/handbook/eda/section3/eda355.htm

    [11]:回归分析中,对 variables 做standardization,https://www.researchgate.net/post/In-a-linear-regression-model-how-to-find-the-level-of-influence-of-each-independent-variables-on-the-dependent-variable

    [12]https://stats.stackexchange.com/questions/153390/multifactorial-analysis-of-variance-with-repeated-measurements-literature

    [13]McNemar's test. 不同于 ttest面向连续变量,这个是面向二分变量的。https://en.wikipedia.org/wiki/McNemar%27s_test

    [14] 在特征检验中使用,即某特征划分的样本在指标上是否有差异(均值):https://blog.csdn.net/weixin_39753674/article/details/110534435

    相关文章

      网友评论

        本文标题:假设检验:非参数检验(卡方检验),参数检验(F检验,T检验,Z检

        本文链接:https://www.haomeiwen.com/subject/unkagctx.html