通过统计精准定位从全基因组关联到候选的因果变异（下)

作者: lakeseafly | 来源:发表于2019-01-29 15:13 被阅读210次

通过统计精准定位从全基因组关联到候选的因果变异（下)
PheWAS(全表型组关联分析)----GWAS and Phe
基因组重测序与转录组联合分析简介
关于全基因组关联分析（GWAS）
GWAS
(史上最全)SNP位点与转录因子结合特异性数据库：GVATdb
Nature Genetics | 揭示RNA可变剪接在复杂性状
重测序分析（14）全基因组关联分析GWAS介绍
iMETHYL：DNA甲基化、 SNP和RNA_seq的多组学联
1+1>2，GWAS+转录组联合分析，你一定要知道！

将个研究与meta-analyses相结合

将多个研究的数据结合可以有效的提高精确定位的准确性，上述的策略可以用于当个人水平的数据结合在一起。但是个人水平的数据并不是那么好从多个研究中获取。因此，可以使用与SNP的性状关联仅需汇总统计。

这种策略越来越popular，因为它简化了数据共享和计算问题。选择适当的汇总统计数据时，与使用个体级别数据相比，这方法更加不容易丢失关键的信息。（当原始数据用于估计SNP相关性时，相对于分析个体级数据，不存在信息丢失)。实际的例子通常使用合适的参考样本来评估SNP的相关性，在1000个基因组计划，允许将单个SNP分析的汇总统计数据组合起来进行联合分析。但是要注意的是如果参考样本中LD 模式没有代表性，可能会让联合分析产生偏差，因此参考样本的大小不应该太少，要随着GWAS的大小而增加。

不同种之间的GWAS精细定位

对种族差异种群的GWAS的比较表明，SNP与复杂性状的关联通常在不同种群中是一致的，等位基因对性状的影响方向相似。将遗传多样性群体中同一性状的GWAS结果结合起来的跨种族荟萃分析可以通过利用LD模式中的种族差异来辅助精细定位。重要的问题可以重建为，是关于种族群体的选择。例如，基于不同欧洲血统或欧洲和亚洲血统的混合分析，对精细定位的提高微乎其微。但通过包括非洲的血统（具有狭窄的LD）就可以获得更加更加可靠精确的定位。

前面都是讨论比较高深的问题，下面回到我们熟悉的注释。

基因的注释

基因注释是精确定位最重要的一步，因为没有基因功能的解析，定位都是徒劳。将生物学功能配对到DNA序列的基因组注释，可以提供关于通过精细定位分析选择的SNP的可能功能的信息，并且可以帮助确定后续功能研究的优先次序。常见的公众基因功能数据库包括， Gene Ontology, GENCODE, ENCODE, FANTOM5 and the Roadmap Epigenomics Project。

通过将多种数据类型集成到各种组织和细胞类型中，当前的数据库为大约80％的人类基因组提供了功能注释。对已发表的GWAS结果的分析已经确定了复杂特征关联中，功能注释是显着丰富，促使使用注释来提高精定位的准确性。

下面分蛋白质编码注释和非蛋白质编码注释来讨论：

蛋白质编码注释

编码蛋白质的基因中SNP的注释集中在它们对所得蛋白质结构的影响上。注释的实例包括SNP是否发生在外显子，内含子或剪接位点或是否参与可变剪接。大量的生物信息学注释方法可用于功能表征编码SNP并提供预测其有害影响的比重。

非编码蛋白质注释

DNA元素百科全书（ENCODE）项目已经证明基因组是普遍转录的，并且大部分碱基存在于初级转录本中，包括非蛋白质编码转录本。非编码区的遗传变异通常涉及基因调控。非编码注释的一些实例是启动子，增强子，长非编码RNA基因座，转录起始位点，转录因子结合位点，调节序列，染色质可及性和组蛋白修饰模式的特征以及DNaseI超敏感位点。可以通过来自数据库的位置权重矩阵来估计对推定的转录因子结合位点（TFBS）基序的变体影响。

将注释与精确定位相结合

SNP注释通常应用于通过精细定位分析选择的SNP，以便识别注释富集的模式并优先考虑功能验证的候选基因。这种方法会有一定的误差性。替代的方法有，使用功能注释来对回归模型中的SNP进行加权或扩展贝叶斯模型以允许SNP因果依赖于注释的先验概率。

将精确定位与注释相结合具有一定的限制：首先，将注释纳入先验概率对有效的研究的影响有限，其次，目前对广泛基因组功能的理解可能过于局限，无法准确地改进因果关系的先验概率。相反，当关联信号最好是中等的，在高LD区域中，当区域中存在多个因果SNP时，或者当不同区域共享特定注释特征的富集时，注释可能有所帮助。

将GWAS与基因表达相结合

GWAS发现的超过90％的性状相关等位基因定位于非编码区域，有强有力的证据表明增强子，启动子，绝缘子等调节元件的富集。此外，与具有相同等位基因频率的基因型阵列上的其他SNP相比，与复杂性状相关的SNP显着更可能是表达数量性状基因座（eQTL）。这表明GWAS发现的SNP影响附近基因的表达量，并且这种改变的表达最终影响该性状。

统计方法将eQTL数据与GWAS数据整合以量化，是从SNP到基因表达到关联复杂性状的途径。中间变量mRNA是SNP和性状之间的介质。测试因果途径的一种方法是通过因果推断测试，小P值推断因果关系。随机化是另一种方法，可用于区分单个SNP是否影响基因表达和性状与LD中单独的SNP是否影响基因表达和特征。整合eQTL和GWAS结果的关键问题是测量表达的组织类型。复杂疾病通常由多种组织或细胞类型的功能障碍引起，并且基因的表达在不同类型的组织中变化很大。为特定疾病过程或复杂特征选择相关组织类型可能是一项重大挑战。

小结

到目前为止，精细定位工作已经取得了相当大的进步，以完善通过复杂性状的大规模遗传关联研究发现的最可能的遗传变异。本文回顾了各种分析方法，以及基于贝叶斯精细定位的更复杂和相关的方法。所有方法的共同基础是测量的SNP和因果变体之间的LD，这使得精细映射可行并且具有挑战性。

由于我的背景是做植物这方面，很多名词还有概念都没有接触过，本次解读主要是根据我自己的理解在“表明的水平”去解读，更加深刻的内容还需要大家自己回到原文中去理解。随着人类基因组不断深入发展与挖掘，通过GWAS进行疾病等性状精细定位会越来越精准与流行。对比人类基因组，现在植物基因组的研究还是停留在一个比较粗的阶段，但详细日后精细定位也会逐渐运用到植物，已提高产量或者各种抗性。