基因倍增(gene duplication)在基因组进化(特别是以动植物为代表的真核生物)中扮演了重要角色。在多种多样的基因倍增方式中,全基因组倍增(whole genome duplication)是重要的一种。去年五月,我们向大家介绍了来自亚利桑那大学Michael Barker团队报道的昆虫进化中的基因组倍增(或说古多倍体化paleopolyploidy)现象【1】。兴奋之余,我们也注意到文中所采用的方法存在一些不同的声音(详见推送:PNAS最新研究揭示多倍体在昆虫进化中的普遍性——兼谈多倍体现象与基因组倍增)。
今年年初,这些来自坊间的不同声音终于登上了“大雅之堂”:来自爱尔兰都柏林大学(University of Dublin)的中谷与一郎(Yoichiro Nakatani)和Aoife McLysaght在PNAS上对这篇文章以letter形式发表了另一种解读:亚利桑那大学团队所发现的昆虫进化过程中的基因组倍增现象或许是假阳性【2】。如作者所言,传统上来说动物界的多倍体是很罕见的,这引发了他们的怀疑。为了探究亚利桑那大学团队原文结果的可靠性,中谷与一郎和导师Aoife McLysaght进行了一系列分析。
BTW:为什么多倍体化现象和多倍体个体在植物中比较常见呢?最简单的理由是多倍体化会在减数分裂过程中直接破坏有性生殖生物(包括绝大多数动物)的传宗接代,而植物可以通过无性生殖等方式渡过难关并最终获得多倍体带来的进化上的好处。
判断全基因组倍增的两个方法
为方便大家理解,我们先简要回顾一下推断全基因组倍增比较通行的两个方法。传统上来说,要通过基因共线性(gene synteny)。该法基于一个最基本的假设,就是全基因组倍增过后旁系同源基(paralog)因应该按照倍增前的顺序在染色体上一字排开(下图)。随着时间的推移,有些基因会丢失,没有丢失的基因也可能会经历基因组重排(genome rearrangement)导致它们在染色体上出现的顺序发生改变,但如果这些过程不是那么剧烈(比如这些事件发生的年代不是特别久远的话),我们应该可以在现存生物的基因组里面找到它们的踪迹——遗留下来的共线性区域(synteny block)。实际上,第一个基因组倍增的证据正是通过这种方法于1997年在经典模式生物面包酵母(Saccharomyces cerevisiae)中被发现的【3】。值得一提的是,发现者ken wolfe正是本文的主角Aoife McLysaght的博士导师。
图1酵母的基因组倍增和后期的基因丢失
显然,这种基于基因组共线性的方法是比较严密的,但它对于缺乏高质量的基因组组装的生物则一筹莫展了。于是,一种新的方法应运而生。该法摆脱基因组的束缚,完全基于基因序列的比较:通过比较旁系同源基因之间的差异以获得基因的相对年龄(用同义密码子位点替换速率,也就是ks表示,理由是ks一般认为基本不受选择,在同一物种内与演化时间成正比)。如果如图2所示可以发现有很多基因有相仿的年龄(所谓ks峰),那么一个可能的推断便是这些基因都来自一次全基因组倍增。此外,近年来还有通过基因树拓扑结构比较的方法,该法同基因年龄法一样不依赖于基因共线性,但计算上更为复杂(也应该更加严谨,小编不是很了解希望热心网友可以补充)。不论如何,不依赖旁系同源基因共线性的方法由于可以充分挖掘转录组数据,且可以绕过基因组序列缺乏的难题,似乎越来越受到学姐的青睐。有趣的是,该方法也为亚利桑那大学Michael Barker老师多次使用,尤其是15年对裸子植物中基因组倍增的揭示【4】。
图2 (来自【1】)
共线性的丧失?
言归正传之前还是不忘提醒大家小编也不是领域专家,以下叙述错漏难免,请大家多多批评。
实际上亚利桑那大学团队主要就是通过上述的第二类方法对于昆虫进化中的基因组倍增做出的推测。然而,尽管这种方法近年来大行其道,但却在这里遭遇了阻击。小编以为,双方争论的焦点就在于,缺乏基因组共线性情况下的基因组倍增推断是否足够严谨。
让我们来看看都柏林大学团队是怎样做的。他们针对亚利桑那大学团队提出的鳞翅目(Lepidoptera)基因组倍增做了基因共线性分析(之所以选取鳞翅目是因为鳞翅目中有染色体水平的基因组组装)。他们的假设是,如果包括家蚕Bombyx mori在内的鳞翅目昆虫的确发生有全基因组倍增的话,理应在家蚕的基因组上找到大段的共线性区域。实际上,亚利桑那大学团队在原文中对这一点利用家蚕基因组进行了分析,不过都柏林大学的研究者对此提出了反驳:
图3不同类群昆虫进化关系图,请注意鳞翅目、甲虫和蜜蜂的位置
他们认为亚利桑那大学作者所找到的共线性区段并不可靠,理由如下图所示:一是这些倍增的共线性区段看上去是“随机地”分布在基因组上的,二是有的区域(如chr5和chr10)对应了超过一个倍增区域——表明它们不是一次基因组倍增的结果。
图4
都柏林大学团队进一步指出,这些在染色体上呈共线性区段的旁系同源基因很多都并非是鳞翅目昆虫或者家蚕特有的(图4B),也就是说它们至少不是鳞翅目或家蚕基因组倍增的结果。而反过来,不论是鳞翅目特有还是蚕特有的旁系同源基因,在家蚕基因组中都缺乏(肉眼可见的)明显基因组共线性区域,相反这些旁系同源基因的分布都是很分散的,并没有聚成很好的共线性区段(图5)。
图5
但不要忘记,还有一种可能性,就是会不会是由于在蚕的进化历史中出现了某些基因组大幅重排导致基因序列变化,致使基因共线性难觅踪影呢?为探求这一假设,中谷与一郎和导师比较了蚕和非鳞翅目生物蜜蜂(图6左)以及甲虫(图6右)基因组之间的共线性(纵轴方向为蚕,横轴代表蜜蜂和甲虫)。
图6
都柏林大学的学者们发现,蚕基因组居然与蜜蜂和甲虫这两种非鳞翅目昆虫的基因组保持有不错的共线性关系,并据此认为蚕基因组内部发生了大面积染色体重排的可能性微乎其微——因为如果真的有发生大面积重排的话,那么家蚕基因组不可能与非鳞翅目昆虫还保留有较好的共线性关系。
对于都柏林大学团队的这篇文章,原文作者、也就是亚利桑那大学团队也做了针锋相对的回应【5】。亚利桑那大学团队首先表示,他们所报道的现象应该被理解为大规模基因组倍增(large-scale gene duplication)比较合理,而不是都柏林大学团队所解释的简单的“全基因组倍增(whole genome duplication;WGD)”。请注意,这里一字之差其实还是有很大的差别的,毕竟全代表的是所有基因都要翻倍,而大规模这个词,就有一定的灵活的空间了。不过小编这里要说,如果通读亚利桑那大学团队去年的文章的话不难发现,尽管在题目里写得很严谨Multiple large-scale geneand genome duplications during the evolution of hexapods,但是,全文统共出现有92次WGD,比如摘要部分已经6次使用WGD。总之,小编个人认为,正文应该是存在误导的。
接下来,亚利桑那大学团队对于来自都柏林的同行们提出的“共线性的丧失”这一问题进行了解释。他们表示,都柏林大学团队对于共线性的检测虽然仔细但都是基于裸眼观察,而很显然,裸眼检测并非一项十分精确的操作。此外,原文中报道了昆虫进化过程中的多次大规模基因倍增,所以每一种现存生物的基因组都可能是多次基因组倍增叠加的结果,这也就导致了不同的基因可能有不同的拷贝数(copy number;或说不同旁系同源基因的数目)。而这一切,都使得裸眼观测共线性具有挑战性。所以,即使真的看不到共线性,并不能排除是因为技术局限和其他诸多的可能性。此外,亚利桑那大学团队还对都柏林大学团队提出的其他一些技术疑问进行了阐释,在此为节省篇幅不再赘述。
遥相呼应
与这两篇PNAS文章的一唱一和相呼应的是来自近年来迅速蹿红的植物学期刊molecular plant的两篇文章。该杂志去年年初刊登了来自复旦大学戚继老师和马红老师的文章,通过ks比较和基因树拓扑结构分析等方法全面而细致地梳理了被子植物中的全基因组倍增事件【6】。
图7
今年年初,来自比利时根特大学(University of Ghent)的Yves van de peer等人在该杂志上以Correspondence的形式撰文发表了自己的一些不同见解【7】。最重要的一点在于,来自根特大学的学者们声称,原文作者可能高估了被子植物演化过程中发生过的全基因组倍增的次数。为阐明这一点,文中举了一个例子:对于第一个完成基因组测序的蕨类植物Selaginella moellendorffii(卷柏),如果只看ks分布的话,那么其KDE(kernal density estimate)会呈现大概下图中黑色曲线的样子。
图8
会发现一个峰。那么,会据此认为然卷柏中存在全基因组倍增吗?答案是否定的,因为卷柏的基因组中完全不存在前面提到的旁系同源基因共线性区域。问题来了,既然如此,为什么我们会在卷柏中观测到上图中黑色曲线所描绘的ks的峰呢?答案正是单独的基因倍增,或者按照作者所言,small scale duplication(SSD)。这些小规模的基因加倍不同与全基因组倍增,可以说在进化中,它是时时刻刻都在发生的,而一般来说,所以发生时期较为晚近的小规模倍增基因容易被保留下来(就好比清朝的文物和史料要比唐宋时期丰富),便形成了如上图展示的情形,在ks很小(也就是离现今时间很近的时候)的位置会出现一个峰。而当作者通过数学模型去除这些小规模基因倍增带来的干扰之后,就会看到上图绿色的曲线——并没有明显的ks峰(图8)。根特大学的研究人员认为,这一点似乎并未在复旦大学团队的原文中得到很好的处理。这一点,以及其他的根特大学团队提到的一些问题,都在同期发表的来自复旦大学团队的回应中有很好的解释,感兴趣的读者欢迎直接阅读原文【8】。
BTW:话音未落,根特大学团队反手又是一篇手稿发到bioRxiv上,详细阐述了他们的观点(该文已于日前正式在杂志上发表【9】)。
最后小编想说,这几篇文章存在不同观点的交锋,但大家都是有理有据地交流自己的看法。特别是对于提出反对的声音,原文的作者都对对方的批评表达了感谢。亚利桑那大学团队在文尾表示,Overall, we are excited to see deeper exploration of these ancient duplications with the growing number of high-quality insect genomes to complement our phylogenomic analyses.相信这些理性的讨论会激发学界更多、更深的思考,这大概也是科学应有的发展方式吧。
引文
1. Li Z, Tiley GP, Galuska SR, et al. Multiple large-scale gene and genome duplications during the evolution of hexapods. Proc Natl Acad Sci U S A. 2018;115(18):4713-4718
2. Nakatani Y, McLysaght A. Macrosynteny analysis shows the absence of ancient whole-genome duplication in lepidopteran insects. Proc Natl Acad Sci U S A. 2019;116(6):1816-1818
3. Wolfe KH, Shields DC. Molecular evidence for an ancient duplication of the entire yeast genome. Nature. 1997;387: 708–713.
4. Li, Zheng et al. “Early genome duplications in conifers and other seed plants.” Science advances vol. 1,10 e1501084. 20 Nov. 2015, doi:10.1126/sciadv.1501084
5. Li Z, Tiley GP, Rundell RJ, Barker MS. Reply to Nakatani and McLysaght: Analyzing deep duplication events. Proc Natl Acad Sci U S A. 2019;116(6):1819-1820
6. Ren R, Wang H, Guo C, et al. Widespread Whole Genome Duplications Contribute to Genome Complexity and Species Diversity in Angiosperms. Mol Plant. 2018;11(3):414-428
7. Zwaenepoel A, Li Z, Lohaus R, Van de Peer Y. Finding Evidence for Whole Genome Duplications: A Reappraisal. Mol Plant. 2019;12(2):133-136
8. Wang H, Guo C, Ma H, Qi J. Reply to Zwaenepoel et al.: Meeting the Challenges of Detecting Polyploidy Events from Transcriptomic Data. Mol Plant. 2019;12(2):137-140
9. Zwaenepoel A, Van de Peer Y. Inference of Ancient Whole-Genome Duplications and the Evolution of Gene Duplication and Loss Rates. Mol Biol Evol. 2019;36(7):1384-1404
本文为作者原创,原载于生信人微信公众号
网友评论