美文网首页机器学习-算法理论
从chi-square到F-test,T-test

从chi-square到F-test,T-test

作者: shudaxu | 来源:发表于2021-04-01 15:30 被阅读0次

    \chi ^2 分布

    定义 \chi ^2_k=\sum_i^k x_i其中x_i \sim N(0,1)

    形状,随着自由度提升,越来越接近正太分布。
    Chi Square distributions are positively skewed, with the degree of skew decreasing with increasing degrees of freedom. As the degrees of freedom increases, the Chi Square distribution approaches a normal distribution.

    推论1 :chi-square其泛化形式为\chi ^2= \sum_i^N \frac {(O_i-E_i)^2}{E_i}

    • 1、对于Binomial分布,X_s为success的次数。
      X_s \sim B(n,p)

    • 2、用Normal Distribution来逼近Binomial
      当n很大时,可以用高斯分布逼近:
      X \approx N(np,npq)u=np, \sigma = \sqrt {npq}

    • 3、化为标准正太:
      由于:\frac {X_s- u}{\sigma} \sim N(0,1)
      所以:\chi=\frac {X_s- np}{\sqrt {npq}} \sim N(0,1)
      得到其平方后服从chi-square distribution:\chi^2=\frac {(X_s-np)^2}{npq}

    • 4、化为泛化形式:
      q+p=1X_s+X_f = n带入:
      \frac {(X_s-np)^2}{npq}=\frac {(X_s-np)^2}{np} + \frac {(X_f - nq)^2}{nq}
      得到泛化的形式即:
      \chi ^2= \sum_i^N \frac {(O_i-E_i)^2}{E_i}

    检验1 Observation 与 Expectation 的一致性

    构造\sum_i^N \frac {(O_i-E_i)^2}{E_i},如果Observation 服从 Expectation 的分布,则该统计量服从\chi_N ^2的分布

    F分布

    定义F_{m,n}=\frac {\chi^2_{m}/m}{\chi^2_{n}/n}

    推论2:sample variance is proportional to a chi-squared distribution

    S^2=\frac {\sum_i^n (X_i-u)^2}{n}
    nS^2/\sigma^2 = \sum_i^n {(\frac {X_i-u}{\sigma})^2}
    由于\frac {X_i-u}{\sigma} \sim N(0,1)
    所以nS^2/\sigma^2 \sim \chi^2_{n},当\sigma不变时,nS^2 \propto \chi^2_{n}
    https://stats.stackexchange.com/questions/121662/why-is-the-sampling-distribution-of-variance-a-chi-squared-distribution

    检验2 两总体的方差一致性

    由上述推论2,我们可以用两样本的sample variance构造F statistics
    得到:F_{n_1,n_2}=\frac {\frac {n_1 S_1^2/ \sigma_1^2} {n_1} } {\frac {n_2 S_2^2/ \sigma_2^2} {n_2}}=\frac {S_1^2/ \sigma_1^2}{S_2^2/ \sigma_2^2}
    所以当\sigma_1=\sigma_2时,两组方差的分布符合F统计量。
    \frac {S_1^2}{S_2^2} ~ F(v_1=n_1,v_2= n_2)

    t分布

    假设X \sim N(u, \sigma^2)
    对于变量:\frac {\overline X - u}{\sigma / \sqrt n} \sim N(0,1) 【服从标准正太分布】
    对于变量:\frac {\overline X - u}{S / \sqrt n} \sim t(v=n-1)【服从n-1度的t分布】

    检验3 均值差异

    在最简单的形式中,Anova(F-test)可以用以比较量2个或多个变量的均值,以此 generalize T-test。当在比较2组的时候,他们是等价的F=t^2
    我们拿个简单的例子,比较X_1X_2在均值上是否存在差异(均值差异来自变量自身的variance还是组间差别):

    当两sample来自同一分布时,以下统计量服从T分布。
    T=\frac {\overline x_1 - \overline x_2}{\sqrt \frac {S_1^2+S_2^2}{n}}
    F=\frac {n \frac {(\overline x_1 - \overline x_2)^2} {2}} {\frac {S_1^2+S_2^2}{2}}=\frac {(\overline x_1 - \overline x_2)^2}{\frac {S_1^2+S_2^2}{n}}=T^2
    PS:这里为了做简单的推导,所以将样本量都设为n,其实将n_1,n_2带入也是等价的。
    Refer: https://www.jianshu.com/p/0daa59e481e3

    关联

    其实,F检验是T检验的一种泛化
    Chi-square,F,T,几种分布,都与Gaussian Distribution有紧密的关联。很多问题都可以用不同的方法来检验。

    相关文章

      网友评论

        本文标题:从chi-square到F-test,T-test

        本文链接:https://www.haomeiwen.com/subject/fwctkltx.html