美文网首页
2020-02-29

2020-02-29

作者: drlukun | 来源:发表于2020-02-29 15:55 被阅读0次

    啊啊救救我,为何我的QQ图那么飘(全基因组关联分析)

    原创 陈文燕 bio生物信息 2019-06-29
    https://mp.weixin.qq.com/s?__biz=Mzg2MDA2MDQzMQ==&mid=2247483913&idx=1&sn=bcde50e5d75da376a37a4fe885fd43cb&chksm=ce2d6c69f95ae57f08c960a897bc1420e2ab1d66ec32abfc407605feb6b1f46bbda778ba39c2&scene=21#wechat_redirect

    前段时间有位小可爱问我,为什么她的QQ图特别飘,如果你不理解怎样算飘,请看下图:

    image

    理想的QQ图应该是这样的:

    image

    我当时的第一反应是:1)群体分层造成的;2)表型分布有问题。

    因此让她检查一下数据的群体分层情况,如果没有问题就看一下表型分布。

    这件事后面就没有下文了,小可爱如果你看到这篇文章的话,可以跟我反馈一下问题解决了没有。

    这段时间有空了,我觉得有必要梳理一下这个飘逸的QQ图,到底是怎么回事儿以及如何确定这么飘逸的QQ图有没有问题。

    1.产生飘逸的QQ图的原因

    产生飘逸的qq图的原因有很多。

    比如我们喜闻乐见的:基因多效性(polygenicity)

    也有可能是混淆偏倚,比如群体分层,假如样本中混合了欧洲、非洲、亚洲等各个地方的群体,本身各个群体的SNP频率差异就很大,如果不加以群体分层控制,关联分析的时候就会产生很多偏离预期值的SNP位点。

    很久以前,出现飘逸的QQ图的话,我们可以搭配膨胀系数(膨胀系数的计算)一起看,膨胀系数如果接近1(比如1.01,1.2这种不算接近1),那么也还算过得去。

    但,膨胀系数接近1这种是比较理想的情况。实际情况是,很多人的QQ图不仅飘逸,膨胀系数还老高

    这就尴尬了,连膨胀系数都无法确定这个QQ图飘的正不正常了。

    所以呢,接下来还有什么方法确定我们的基因组数据有没有问题呢?

    2.怎么确定是基因多效性还是混淆偏倚呢

    接下来我要介绍一款神人工具LDSC (LD SCore),全称是LD Score regression

    这款工具就是帮我们实现如何区分飘逸的QQ图正不正常

    具体来说,就是通过LDSC工具计算基因组数据的LD回归截距。

    如果是基因多效性,那么截距会接近1(比如1.004)。

    如果是群体分层等混淆因素引起的,那么LD回归截距就会远离1(比如1.30)。

    除了看截距数值,我们还可以通过画LD Score的图来确定数据是否有问题。

    2.1基因多效性

    如果画出来的LDscore图是下面这种形式,说明GWAS结果是没有问题的,QQ图飘逸就让它飘逸吧。

    image

    2.2混淆偏倚

    如果画出来的LDscore图是下面这种形式,说明QQ图是有问题的。

    image

    3.总结

    总之,看截距。

    1)截距很接近1,就不用管QQ图好不好看了。

    2)远离1(1.3这种),说明基因组数据是有问题的,检查一下PCA加够了没有、群体分层有没有控制好、是否混了很多有亲缘关系的样本在里面。

    如果你想了解怎么用LDSC计算截距,请见下回解析:)

    相关文章

      网友评论

          本文标题:2020-02-29

          本文链接:https://www.haomeiwen.com/subject/qraphhtx.html