美文网首页QTL定位知识的搬运者遗传学
GWAS分析-P值和beta值的爱恨相杀 (六)

GWAS分析-P值和beta值的爱恨相杀 (六)

作者: 杨博士聊生信 | 来源:发表于2021-11-14 09:44 被阅读0次

    前面已经简单介绍过GWAS的概念,GWAS分析中所用到的文件以及分析流程,我们在GWAS分析结果文件中经常会看到beta值和P值,他们分别代表什么意思?这两个值又有什么关系呢?

    我们先来看一下EMMAX软件分析结果都有哪些内容。


    image.jpeg

    其中,第一列代表SNP ID, 第二列代表beta, 第三列代表P-value。
    beta和P-value在GWAS中到底代表什么意思,他们具体什么关系呢,是不是P-value越小,beta值越大呢。
    beta: 等位基因1的效应大小估计,也称为等位基因的效应值。
    P-value: 是目标SNP与表型是否显著关联。小的P-value被视为零假设(目标SNP与表型无关系)可能不成立,即备择假设成立,也就是目标SNP与表型有关系)的证据。

    p-value具体计算过程较复杂,下一期再讲,这一期我们会先讲解一下beta值是如何计算出来的,这就引出了GWAS涉及的公式——最小二乘法。


    image.jpeg

    我们举个例子来方便大家理解。

    image.jpeg
    如图所示,假设有一个SNP位点,是SNP008: G > A
    我们定义A为风险位点,以加性模型为例:一个G = 0, 一个T = 1,即GG = 0, AG = 1, AA = 2
    根据上面公式(1):
    SNP对应的x值分别为:2,2,1,2,1,0,0,2,2,0
    表型对应的y值分别为:189,180,171,192,173,160,162,183,190,158
    image.jpeg
    我们的任务就是找到合适的a和b,使得
    (2a + b – 189)^2 + (2a + b – 180) ^2 + (1a + b – 171) ^2 + (2a + b – 192) ^2 + (1a + b – 173) ^2 + (0 + b – 160 ) ^2 + (2a + b – 183) ^2 + (2a + b – 183) ^2 + (2a + b – 190) ^2 + (0 + b – 158 ) ^2结果最小。

    我们可以借助R计算一下:


    image.jpeg

    拟合结果是,a最优值为13.47368,b最优值为159.6316 ,公式y= 13.47368 x + 159.6316
    回归到全基因组关联分析中,这里a值即为beta值,是13.47368。

    部分小伙伴认为效应值beta越大, P值一定就越小,其实这种理解是错误的,它们完全是两回事。

    GWAS分析的大致思路可以简单归为以下几点:
    Step1: 将对应的基因型转换为0,1,2的形式,这里将主效纯合基因编码为0,杂合基因型编码为1,次要纯合基因编码为2;
    Step2: 将基因型输入向量x, 研究的表型输入向量y;
    Step3: 对x和y做回归分析,y= ax + b, 其中a即为效应值,a是否显著即为P value

    我们先利用R将上面身高例子利用最简单的线性模型进行关联分析一下。

    #首先将基因型和身高分别输入x和y
    x=c(2,2,1,2,1,0,0,2,2,0)
    y=c(189,180,171,192,173,160,162,183,190,158)
    height = lm(y ~ x)
    summary(height)
    
    image.jpeg

    我们发现该方法和前面我们求出来该位点效应值一样,都是13.474, 同时该位点与身高显著关联,P value = 1.02e-05。

    接下来,我们看一个效应值(beta)较大,不显著(P value较大)的例子。

    自己造数据。

    #基因型0,1,2
    x = rep(c(0,1,2),4)
    x
    
    #模拟的表型值
    y = 13*x + rnorm(12)*20
    y
    # 作回归分析
    sim = lm(y ~ x)
    summary(sim)
    
    image.jpeg

    我们可以看到效应值为7.865,P value为0.17,不显著。我们做散点图看一下出现效应值较大,不显著,在图形上具体怎么表现?

    # 作散点图
    data = data.frame(x,y)
    data
    ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')
    
    image.jpeg
    然后,我们再看一个效应值(beta)较小,极显著(P value较小)的例子。

    自己造数据。

    #基因型0,1,2
    x = rep(c(0,1,2),4)
    x
    
    #模拟的表型值
    y = 0.5*x + rnorm(12)*0.05
    y
    # 作回归分析
    sim = lm(y ~ x)
    summary(sim)
    
    image.jpeg

    我们可以看到效应值为0.491590,P value为1.44e-12,极显著。我们做散点图看一下出现效应值较小,极显著,在图形上具体怎么表现?

    # 作图
    data = data.frame(x,y)
    data
    ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')
    
    image.jpeg

    我们可以简单理解一下,效应大不显著的位点是那些SNP对表型影响较大,但容易受外界环境影响,或者由于误差造成的个体之间表型较离散;效应小极显著的位点是那些SNP对表型影响较小,但是不易受外界环境影响,对表型影响较为稳定的位点。

    总之,大家记住效应值beta和P值没有必然的联系,它们不是一回事即可。

    往期回顾:
    GWAS分析 (一)
    https://www.jianshu.com/p/67e1878845e3
    GWAS分析-曼哈顿图 (二)
    https://www.jianshu.com/p/fa261b6045c2
    GWAS分析-常用文件格式 (三)
    https://www.jianshu.com/p/ad47f575e83b
    GWAS分析-R包GAPIT (四)
    https://www.jianshu.com/p/9944bcbfe3c7
    GWAS分析-多个性状的manhattan组合图绘制(五)
    https://www.jianshu.com/p/b376a86cb7e3

    相关文章

      网友评论

        本文标题:GWAS分析-P值和beta值的爱恨相杀 (六)

        本文链接:https://www.haomeiwen.com/subject/mevttrtx.html