Dating genomic variants and shared ancestry in population-scale sequencing data
2020 年发表在 PLoS Biology 上。通讯作者与第一作者为牛津大学 Li Ka Shing Centre for Health Information and Discovery 大数据研究中心的 Patrick K. Albers。
研究者们希望开发出一种非参数的,不受 demographic、选择作用、以及二者导致的 geneolgy 的影响的,并且对基因频率以及基因组分析中常出现的一些 error 都 robust 的研究等位基因出现时间的方法。(嚯,野心好大)
这一方法的原理与用 coalescent model 计算个体基因组之间最近共同祖先时间 TMRCA 的方法相似。不同的是,这一方法可以在连续的时间尺度上计算,而不是 discretized timescale。
在变异周围的基因组区域上,有个体间的谱系树。假设 derived allele 在树上单次起源,对两条染色体计算 MRCA,如果两条染色体都携带 derived allele(concordant),则 MRCA(图中蓝色节点)比实际的突变事件更近;如果它们一个携带 derived allele、一个携带 ancestral allele(discordant),则 MRCA(图中红色节点)会比实际的突变事件更古老。
对每一对染色体,使用简单隐马尔科夫模型,估计 MRCA 不变的区域,也就是从 focal position 向两侧出发,离最近的可检测到的重组事件的距离。对于 ancestral segment,能够获得遗传距离以及从 MRCA 到现存染色体的过程中发生的突变的数目。
对每一对染色体,用概率模型估算 TMRCA 的后验概率,用累积分布来表示。结合 concordant 和 discordant pairs 的累积分布,就能够估计突变起源时间的复合后验分布(composite posterior distribution)。
网友评论