美文网首页
2020-03-13-03 重要的离散分布

2020-03-13-03 重要的离散分布

作者: RachaelRiggs | 来源:发表于2020-03-13 23:27 被阅读0次

    1.常见的离散分布

    image.png

    2.二项分布

    image.png

    例如:袋中放了20个球,5白15黑,每次抽球后放回袋中,则抽10次球,抽到白球X次的概率,此时
    X~B(10,p)

    二项分布的性质

    image.png
    image.png
    二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p+q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。

    二项分布的概率计算

    image.png

    二项分布在生物信息中的应用

    image.png
    理解:抽样总reads数目为n,突变数为k

    P value的理解
    一句话:p value: 把H0错判为假的概率。p越小说明,错判概率越小,则有足够把握拒绝H0,接受H1。
    详见如下:
    P value(当H0为真时拒绝H0的概率),即:H0为真,却判错的概率。如果P较大,说明,我们此时判定H0为假,也就是拒绝H0(默认是接受),实则H0为真的概率为0.25,说明判假犯错的几率为2%,犯错几率很大,所以没有理由拒绝H0,应当接受H0。

    p-value的作用:p-value就是用来判断H0假设是否成立的依据。因为期望值是基于H0假设得出的,如果观测值与期望值越一致,则说明检验现象与零假设越接近,则越没有理由拒绝零假设。如果观测值与期望值越偏离,说明零假设越站不住脚,则越有理由拒绝零假设,从而推出对立假设的成立。

    p-value的计算:计算chi-suqare,计算自由度,查卡方分布表。

    总的思路是

    1. 做出H0,H1这对互斥的假设,计算出H0为真时的期望值,统计出实际的观测值;
    2. 期望值和观测值的比较(chi-square检验,如果H0为真,两者相差应当很小);通过计算期望值和观测值求得chi-square(卡方)(chi-square求得值的含义是在一定自由度下,两者的相差程度,即H0成立,观测值符合H0的相符程度);
    3. 再通过卡方查表,查对应自由度下,期望值和观测值两者的相差程度(chi-square所得)对应的p值(这个p值代表,期-测在这个自由度下的相差值,拒绝零假设的判错概率(P value)(越大说明越有可能判错,H0实真却判为假), 例如P value在0.25到0.1之间,代表:这个期-测相差程度下,H0零假设为真,但拒绝H0真假设,发生错误拒绝的概率为0.1~0.25,即把真假设H0判错概率较大,不足以拒绝H0,则H0为真)
    4. 根据p值与α(1-置信度)的比较,如果p-value<α,则拒绝(reject)H0,推出H1成立;如果p-value>α,则接受(accpet)H0,推出H1不成立。
      P值越小说明,H0误判为假的概率越小,越有理由拒绝H0
      p-value<α=0.05,H0判错几率小于0.05,则“H0成立,这个判断正确的几率大于0.95” 参考
    image.png
    理解:抽样总reads数目为n,突变数为k
    1.提出H0:是mutation,H1:不是mutation
    2.计算期望值--该位点总reads为n,期望突变的次数为m(可以根据参数p算,每一个位点在总reads为n,位点突变reads的个数m服从概率为p的二项分布,m~B(n,p))
    求chi-square:
    -- 观测 期望
    突变 k m
    不突变 n-k n-m
    image.png

    3.计算自由度=独立变量-1(突变与不突变,2-1=1),查卡方分布表里面chi-square对应的p value;p越小说明,小到小于α(ex=0.05),说明H0判错几率很小,则有足够把握拒绝H0,则H1成立,即拒绝H0,的判断95%是正确的,接受H1。


    image.png

    二项分布的缺点:
    n大,p小时,突变次数为m的概率符合二项分布,但计算量巨大,此时突变次数为m的概率可以用泊松分布来拟合,同样可以求得突变次数为m的概率,计算公式较二项分布函数更为简便,可以减轻计算的压力。

    image.png

    3.泊松分布

    image.png
    二项-泊松-正态
    10:18

    相关文章

      网友评论

          本文标题:2020-03-13-03 重要的离散分布

          本文链接:https://www.haomeiwen.com/subject/wmueshtx.html