BOOK: GENETICS AND GENOMICS
Editor: Csaba Szalai
Authors: Valéria László et al. 2013
节选其中讨论遗传研究中存在的统计学问题进行翻译记录。
如若转载请注明。
产生missing heritability的一个问题源于评估方法,即来自统计学。与复杂疾病风险增加相关联的大多数变异,仅增加疾病风险的10-20%。这意味着变异携带者患病的概率仅比没有携带该变异的个体高1.1-1.2倍。检测这种弱致病效应的变异十分困难。此外,由于群体的遗传异质性,且变异间存在相互作用,因此与患病风险增加的关联遗传背景实际上是无限多的。从统计学的角度来看,如果群体越大,对统计分析越有利。但更大的群体意味着更多的遗传异质性,因此每种遗传变异的影响相对而言被稀释,变得不那么明显,甚至可能在分析过程中被miss。
另一个问题是缺乏适当的统计学方法。一个问题叫multiple testing problem。
如果在GWAS分析中测量了10万个遗传变异,从统计学角度来看,这意味着进行了10万次独立测量。这种情况下,假阳性结果的概率被累计相加。统计学中,p < 0.05被用作显著性判断的阈值。这意味着假阳性结果的概率为5%,即在100次独立研究中我们可以做出错误判断的次数为5次。
纠正这种问题的其中一种方法叫Bonferroni correction。上述例子中,0.05除以测量次数。但是,独立研究的次数不仅取决于测量的次数,还取决于其他因素,如样本数量,临床参数和测试类型等。但Bonferroni校正过于保守,即只能检测到最强的effects。相反,根据common disease common variants假说,多种具有弱致病效应的common variants相互作用,加之环境影响最终引发复杂疾病。此外,由于遗传因素的相互作用,如果我们也想计算这种相互作用,研究会将独立问题的数量增加至非常大的数量。这意味着Bonferroni校正和其他类似的方法不能检测弱致病效应的变异,需要其他方法检测。
现在有一些针对统计问题的新解决方法。例如,为了克服之前的局限性,提出了probabilistic graphical models (PGMs)。由于PGM能够高效准确地表现复杂网络,PGM代表了解剖复杂疾病的遗传易感性的强有力工具。Bayesian networks是一类流行的PGMs,其图形呈现具有关键优势,可以有效描绘影响表型的SNP-SNP相互作用(称为epistasis)。由于贝叶斯统计可以评估networks,它适用于系统生物学的评估性研究。具体例子见 Evaluation of a Partial Genome Screening of Two Asthma Susceptibility Regions Using Bayesian Network Based Bayesian Multilevel Analysis of Relevance
假设有更好的统计方法,从同一篇研究中我们甚至可以得到更多的信息。例如一篇论文,使用更好的统计可以解释67%的身高的heritability,而原始论文中这一比例仅为5%。在该文中,相较于之前逐一考虑SNP,新的统计分析考虑了所有SNPs一同对身高的effect。Genetics tells tall tales
另一篇文章研究了高血压的遗传背景。他们重新评估了meta分析的结果,该分析没有发现任何相关变异(由于过于保守的Bonferroni校正和疾病的异质性)。新的数据统计中,作者没有考虑单个SNP,而是检查了高血压人群是否有信号通路,其变异的分布在统计学上显著不同于健康人群。而该文章发现了几种与疾病相关的信号通路。
大多数疾病(~93%),以及性状相关联的变异位于非编码序列,这也是研究的巨大挑战之一。很难解释这些非编码变异如何影响性状。在ENCODE项目的研究中发现,在给定的细胞系中,所有非编码GWAS SNPs中,76.6%的SNPs位于DNase I超敏位点DHS,或与附件DHS的SNPs处于完全连锁不平衡状态(一同遗传)。与实验确定的和计算机预测结果相比,DHS在转录因子和增强子的结合位点处显示出同上述结果的惊人一致性。借助ENCODE和其他类型项目的结果,可以更容易确定位于非编码区域的变异的功能。
网友评论