GWAS基本分析内容

作者: rapunzel0103 | 来源:发表于2018-01-20 13:25 被阅读603次

    之前给大家大致介绍了GWAS在临床生信分析中的概况,包括一些基本概念,原理和注意事项(出门左手边—>临床生物信息学中的GWAS分析),这次具体讲讲GWAS基本分析内容及结果解读(这篇也是我在百迈客云课堂的个人学习笔记,有兴趣学习的可以去购买课程百迈客GWAS生物信息培训课程

    另外参考文献及配图来自

    Qiu X, Pang Y, Yuan Z, Xing D, Xu J, Dingkuhn M, et al. (2015) Genome-Wide Association Study of Grain Appearance and Milling Quality in a Worldwide Collection of Indica Rice Germplasm. PLoS ONE 10(12): e0145577. https://doi.org/10.1371/journal.pone.0145577

    GWAS基本分析内容

    一、基因型数据质控

    1)按分型百分比过滤

    一般剔除缺失率在20%以上的位点,如果数据量比较大可以放宽到50%

    2)按等位基因频率过滤

    去除第二等位基因频率小于5%的位点,如果数据量比较大可以放宽到1%

    3)多等位位点的过滤

    根据软件的需要,有些软件不支持多等位位点

    4)哈迪温伯格平衡过滤

    人类case/control中一般将不符合哈迪温伯格平衡的位点过滤掉,动植物不使用该过滤

    5)极端表型的去除

    根据MAF筛选

    二、LD衰减分析(选做)

    最低饱和标记量=基因组大小/LD衰减距离

    密度越大越好:检测到功能位点的概率增大;处于同一block的位点相互验证

    可以根据LD衰减距离来决定候选基因上下游的范围

    LD decay

    三、群体结构和亲缘关系

    1)目的:对群体结构和亲缘关系进行评估以确定使用的统计模型和获得相应的矩阵

    2)评估内容(遗传上差异过大应剔除,相似性高的保留其一)

    群体结构:构建系统发育树(必备)

                       同一物种内序列差异不大构建NJ树(mega),序列差异较大,不同种构建ML树(RAxML),贝叶斯树(ExaBayes)

                       model-base的群体结构分析

                       主成分分析

    图片来源百迈客

    亲缘关系:相似性系数热图、遗传距离

    图片来源百迈客

    3)群体结构和亲缘关系是导致关联结果出现假阳性的两个主要因素(课程里谢坤大牛用实例说明了群体结构和亲缘关系的选择对结果的巨大影响,比如玉米Dwarf8基因 Lessons from Dwarf8 on the Strengths and Weaknesses of Structured Association Mapping

    四、关联分析

    1)选择正确的统计方法:

         小标记量:简单的t-test或ANOVA

         case/control质量性状:卡方检验, OR检验,逻辑回归

         数量性状:一般使用多种模型(GLM/MLM/EMMAX/fast-LMM)同时分析

    图片来源百迈客

    2)确定显著性阈值

         Bonferroni correction

    3)结果解读

    可视化:曼哈顿图

                  分位点图(随机预测出的P和实际算出来P的比较,是否异常显著)

    Fig 5. Quantile-quantile plots of 16 models for GL measured in HZ. The horizontal and vertical axes are -log10 transformed expected p-values and observed p-values, respectively. Model with more uniformly distributed p-values is better.

    4)若结果不显著:

    可能原因及解决办法

    性状考察不准确——提供准确表型

    性状受环境影响大——多年多点重复

    性状由多个小效应位点控制——增加样本量

    模型检测效力power不够——更换合适的模型

    标记密度不够——更加标记量

    实在不行就忽略阈值,选择有明显的峰值区域进行验证

    五、后续生信分析

    获得显著位点后:

    1)进行LD block分析,确定候选区间的范围

    2)对候选区间内的基因做功能注释(nr,GO,KEGG等)

    3)显著位点是否位于编码区,是否是非同义突变

    4)同源分析,结合其他物种对应的同源基因的功能来猜测候选基因的功能

    六、实验验证

    RT-PCR、蛋白表达、转基因功能验证、RNA干扰

    高分文章实例:OsSPL13 controls grain size in cultivated rice

    相关文章

      网友评论

      • 小飞启:如果数据量大,可以增加至50%,这句该怎么理解,数据量大不应该是允许的缺失率更低么?比如剔除缺失率在10以上的点
        rapunzel0103:@小飞启 这里我可能表述有点问题,原话是"样本量较大的群体中,缺失率小于50%的位点都保留",样本量越大,出错的可能性越高,为了保持一定的样本量,所以要放宽条件
      • 50e2e169eafe:您好,在质控上求教~
        1、“一般剔除缺失率在20%以上的位点” 是什么意思?指某位点发生缺失的频率在20%以上的时候剔除么?
        2、怎么确定“不符合哈迪温伯格平衡的位点”呢?
        3、极端表型 怎么定义呢~?
        这些是某个工具直接处理还是通过注释筛掉?
        rapunzel0103:@_咚咚咚_ 1 是的;2 用软件检测 3 表型数据过高或者过低
      • 49b37cab7f6c:谢谢您的分享,非常感谢,收获很多!
        rapunzel0103:@garitonlee 不客气哈哈

      本文标题:GWAS基本分析内容

      本文链接:https://www.haomeiwen.com/subject/fxttaxtx.html