Rate of Recombinational Deletion among Human Endogenous Retroviruses
2007 年发表在 Journal of Virology 上。第一作者与通讯作者为牛津大学 Department of Zoology 的 Robert Belshaw。
文章研究的是人内源性逆转录病毒(Human Endogenous Retrovirus, HERV)。绝大多数 HERVs 的最终归宿是在重组事件中被删除,这个过程与完整病毒序列两端 LTR 序列(长末端重复序列)的同源重组有关,会使得基因组中只剩下一个 solo LTR。研究者们研究了 HERV-K (HML2) 家族,发现删除率与年龄显著负相关。近期整合到基因组上的位点的删除率比那些在人和黑猩猩分化之前就已经插入了基因组的位点要高几乎 200 倍,二者每代每位点发生的重组删除事件次数分别是 8×10^(-5) 和 4×10^(-7)。一个假说是,LTR 序列的突变积累使得同源重组的可能性降低,因而重组删除的几率变低。由此,研究者们进行了模拟,模型中单个突变会使得重组删除的概率降低 10 倍,而任何额外的变异使其降低 100 倍。研究者们还讨论了其他可能影响 locus age 与删除率之间的关系的因素,例如宿主的重组率、选择作用,并且强调了重组删除对于确定近期 HERV 整合时间的影响。
许多 HERVs 已经存在了数千万年,大约 85% 经历了两端 LTR 序列导致的重组删除。这一过程会使得全长序列被单个 LTR 序列取代。
HERVs 按照独立感染事件被分为了几个支系,这些感染事件可以追溯到 7 mya。除了 HERV-K 家族以外,其他的家族都已经不再增殖了。HERV-K 家族在人类和旧世界猴中都存在,但不存在于新世界猴中,可能是在约 30 mya 整合到了祖先基因组上。
RESULTS
将位点分为三个 age categories。第一个分类包括在已发表的黑猩猩基因组上为全长前病毒,而在人类基因组中有单个 LTR 或者全长序列的位点,这一部分位点在 30 mya 到 6 mya(6 mya 是人类和黑猩猩分化的大致时间);另外两类包括的是在人和黑猩猩分化之后才插入的位点,包括已经固定的和还没有在人群中固定下来的位点。研究者们将后两类的分界定在了 0.8 mya,这是一个中性 allele 在基因组中固定下来所需的平均时间(在每代 20 年、一万的群体大小的情况下)。
对于一个 t 代前插入的全长前病毒序列,它仍然保持全长的可能性 P = (1-r)^t。r 是在任何一代中发生删除的可能性。这个 P 的计算是对一个个体的计算,不是群体的平均值。对于最老的一类前病毒序列,在人类和黑猩猩共同祖先中有 25 个全长序列插入,记代数 t 为 3×10^5;在一个随机选取的人类个体中,有 22 个仍然是全长序列,因此 P 为 0.88。使用前述公式可以算得 r 为 4.3×10^(-7)。作者写道,这种计算方式没有考虑在人类和黑猩猩支系中独立发生的重组删除(也就是说,前面的 25 个全长序列插入指的是现在在黑猩猩中能找到的全长序列插入,但是在黑猩猩中可能也发生过重组删除,这一点没有被考虑进来)。将计算方式反过来(在人类中找共同祖先的全长插入、对黑猩猩进行计算),也得到了相似的结果。将每代间隔设置为 15 年(t 为 4×10^5),对于合并数据集进行计算,得到 P 为 0.9、r 为 2.6×10^(-7)。
所以是先用最老的这一类进行计算,获得人类中重组删除的速率,然后再对更年轻一些的插入位点进行 age 的计算。前面说的对一个随机选取的人类个体进行计算应该只是在举例子吧。
这同一个家族(HERV-K),应该是对人类和黑猩猩祖先的单次感染导致的,但是后来在基因组中发生了扩散,有了越来越多的位点,有的发生得早有的发生得晚。为什么可以直接用发生得早的进行统一的计算呢?它们插入的时间也不一样啊。在 30 mya 到 6 mya 之间可是差了两千多万年呢。
第二类是在所有已知的人类基因组中都存在(fixed)但是在黑猩猩中不存在的插入位点。总共有 66 个,其中 7 个所有样本都有全长插入、56 个所有样本都有单个 LTR 序列插入、3 个则是既有全长又有 solo LTR。计算得到这一类插入的 P 值为 0.14。研究者们估计这部分位点的插入时间在 6 mya 到 0.8 mya 之间。如果假设这段时间的插入频率是恒定的、在插入后的删除的频率也是确定的,那么全长前病毒序列的比例的期望值为:
我没有明白。这里也没有提到插入的频率呀。总之计算得到 r 约为 1.5×10^(-5)。(文章有给置信区间但我这里就懒得写了)
而对于最年轻的一类,找到了 8 个这样的位点,而全长序列的占比(只对有插入的部分位点进行计算)为 0.3。这些位点的病毒序列整合到基因组的时间在过去的 0.8 百万年前,也就是 40000 代内。同样地假设不变的插入和重组删除的速率,得到 P 期望值为:
计算得到 r 为 8.0×10^(-5)。
由对上述三类位点的计算可知,用同一个方法计算得到的删除速率随着位点 age 的上升显著降低了。几乎存在 200 倍的差异。
用模拟的方法比较观察值与理论值。
Fig 1. Comparison of the observed and simulated proportions of full-length proviruses in different age categories.大黑点表示上面计算得到的值,小黑点表示在 1000 代模拟下获得的平均值。在 6 百万年前后有突然的变化,这是因为早于 6 mya 的删除没有被考虑(意思是,早于 6 mya 的插入位点中,只分析了在黑猩猩中还有全长插入的位点)。
好像还是很有道理的。但是好像又多少有点问题。
而且这个逻辑也怪怪的,时间越早的插入越不容易丢失,因为 LTR 序列的变异。但是时间早的插入不也有年轻的时候吗?这是单独指有幸被保留下来没有删除,然后积累了变异的这部分插入,不容易丢失?那这不是废话吗因为没丢失所以不容易丢失。
为什么对第一类位点的计算,只包括在黑猩猩中有全长序列的部分呢。直接把所有人类和黑猩猩共有的位点都拿出来,按照对第二类的方法进行计算不好吗。不然的话不就是对侥幸保存下来的一类进行的计算吗,那删除率肯定很低呀,因为没把被删除了的算进来啊?
是因为黑猩猩中测序没有覆盖全基因组吗。即使是这样,对于已测序区域的全部共有插入位点进行计算也不会引入很多偏差啊,如果测序覆盖和插入发生互相独立的话。
DISCUSSION
本研究的结果与小鼠中的实验数据较为吻合。
模拟支持了突变率影响 LTR 重组删除因而导致删除率降低的假说。
人类基因组的背景重组率是变化的(不同基因组区域的重组率不同),因此一些老的全长前病毒序列被保存下来可能只是因为那个区域重组率低。但是这个影响不大,研究者们的认为这只会导致三倍的差异,而无法导致研究中观察到的 200 倍的差异。
而不管是全长还是 solo LTR 应该都不是中性的,并且全长的可能更有害,因而受到选择清除的作用,如果是这种情况,就会 overestimate 重组删除率。然而现阶段没有足够的数据来研究这一点。
网友评论