相信多倍体(polyploid)对于生信人的读者来说不会陌生。一般意义上认为,多倍体和基因组倍增(whole genome duplication)的涵义是相同的。这里的重点是古代多倍体(paleo-polyploid)。提到这个名词,大家似乎最先想到的都是植物。一来是因为不少植物就是当代多倍体,比如三倍体无籽西瓜、八倍体小黑麦等等,都是大家餐桌上的常客。二来是因为在植物进化过程中出现的多次基因组加倍事件。按照目前的一般认识,所有被子植物中的祖先都曾发生过至少两次基因组倍增(Jiao et al., 2011)。之所以是古多倍体,是因为众多倍增的基因(gene duplicate;duplicated gene)都在进化中丢掉了,植物也二倍体化了(diploidized)。再后来,基因组倍增的好戏还在不同的植物中轮番上演,不论是拟南芥这样的模式植物,还是水稻、玉米这些主食,再到白菜、地瓜等重要蔬菜,抑或兰花、玫瑰一类的观赏花卉,其基因组都与(多次)全基因组倍增事件紧密相连。说多倍体和古多倍体研究是植物基因组学最重要的课题之一毫不为过。然而,同植物界截然不同的是,这一现象在动物界和其他生物中较为少见。因此,很多人把多倍体看做植物的“专利”。
植物中的古多倍体(paleopolyploid)。图片来自https://genomevolution.org/wiki/index.php/Whole_genome_duplication
由图中可见,在历史上,经典模式植物拟南芥至少发生过五次基因组加倍。关于植物古多倍体的报道可以看看复旦大学戚继和马红课题组的最新研究论文(Ren et al., 2018)以及植物所焦元年老师撰写的专题点评(Jiao, 2018)。
今年四月,来自茫茫戈壁环绕之中的美国亚利桑那大学(University of Arizona)的Michael Barker团队的最新的一项研究表明,在昆虫的进化过程中,曾经发生过至少18次全基因组倍增事件(Li et al., 2018)。昆虫(insects),也被称作六足类(Hexapods),其在动物界乃至整个生物界的重要地位就不用多说了。昆虫纲(或者按照NCBI Taxonomy数据库的讲法,昆虫亚门)是目前已知所有生物里物种最多的纲。这一研究的横空出世,在小编看来,基本上标志着曾经属于植物界的基因组倍增的特权被全面剥夺。
让我们来看看这项研究是怎么做到的。简单地说,作者们应用的主要是针对基因年龄(gene age)进行的分析。本文作者所计算基因年龄所采用的标准是同义核苷酸替换(substitutions per synonymous site),业内一般简称为ds或ks(关于这一内容可以参看生信人不久前的推送:dNdS与KaKs的关系,你搞清了吗?),由于是同义位点,其突变不会产生氨基酸的变化,大体上可以认为对蛋白没有什么影响,也就是说密码子同义位点的变化完全是随着时间推移突变积累的产物。粗略地看,ks基本上和时间呈线性关系,故常用来作为推算基因年龄的指标。其基本思想是,如果在以前发生了基因组倍增事件,换言之就是瞬间整个基因组的基因翻了一般,那么如果到今时今日依然有相当数量的基因保留下来,所以如果基因组内所有的基因的年龄在基因年龄,也就是ks,上反应出来,那些古代多倍体事件的产物就会形成一个峰(ks peak)。如果这一尖峰足够得尖,就可以认为在进化里的某个时期发生过全基因组加倍事件(古多倍体paleo-polyploid)。而如果我们知道每单位时间(比如每百万年)内同义核苷酸所积累的突变,那么就可以根据ks进一步推算基因组加倍事件所发生的年代距今有多远。其最为可歌可泣的精妙之处就在于能够在没有基因组序列的情况下借助转录组序列进行古多倍体的推断。
本文作者分析了27个昆虫基因组和128个昆虫转录组。作者用运了严密复杂的生物信息学方法详细计算、比较了种内和中间的基因的ks分布。最终找到了18次全基因组加倍的证据和6次大规模基因加倍(大概也可以看做低可信度的全基因组加倍,小编注)的证据。
此外,作者还根据功能的信息,对不同方式加倍生成的基因(多说一句,除了全基因组加倍,植物基因组内还有大量通过其它加倍方式生成的基因,比如串联加倍基因,随机加倍基因等)进行了PCA聚类分析,并发现全基因组加倍的基因和其它方式加倍获得的基因在功能上有明显差别,也进而为全基因组加倍提供了另一证据(下图)。
作者将研究找到的这些基因组加倍或称古多倍体事件标注在昆虫的进化树上,基因组倍增发生在哪些lineage里、发生了几次,读者一看便知。
另外,值得注意的是,Michael Barker团队此前曾经利用相似的方法报道了裸子植物中广泛存在的古多倍体事件(Li et al., 2015),被认为是业内的重要成果。实际上Barker教授早在09年就开始采用类似方法报道了被子植物里的古多倍体现象(Barker et al., 2009)。所以这篇昆虫的文章可以说也是非常系统的工作和多年积累的结果。其实,早在2016年在加州圣地亚哥一年一度举行的Plant Animal Conference上Barker教授做了关于大开大合地做了这项如梦似幻的研究的presentation,当时小编恰好就在下面如痴如醉、似懂非懂地听着。Anyway,Barker教授开阔的思路和敏捷的反应给小编留下了深刻的印象。
抢班夺权的不只是昆虫。今年4月17号,也就是昆虫文章发表的两天前,老牌植物学期刊American Journal of Botany正式刊文报道了硅藻(diatom)中首次发现大量(作者用词:numerous)古多倍体现象(Parks et al., 2018)。文章的通讯作者是来自美国阿肯色大学(University of Arkansas)的Andrew J. Alverson。
这里要澄清一下,虽然发表在植物学的期刊,名字又带个藻,硅藻在分类学上与真正意义上的植物并无太大的亲缘关系。其实很多“藻”字辈的物种都并非植物。小编最早接触的蓝藻的概念也是在大学植物学的课堂里,直至多年后到了国外才知道原来老外都叫cyanobacteria。
注意硅藻(diatoms)的位置。图片来自(Cock et al., 2010)
既然不是植物,这篇文章所报道的硅藻进化历程中的古多倍体现象就自然显得格外重要。这篇文章所使用的主题策略同上一篇没有大差,也是基于ks峰等方法。作者们估算有两次高可信度的基因组倍增发生在6000万-1亿年的时间内,其它倍增事件更为久远,最远的可以追溯到两亿年前。
文章根据不同的方法推断得到的几种古基因组倍增发生的lineage。图片来自(Parks et al., 2018)
在这两篇报道之前,古多倍体现象主要集中在植物、特别是被子植物中被发现。在动物界,已知脊椎动物的祖先——也就是我们人类的祖先——曾经也是,多倍体(你没看错,这是真的)(Dehal & Boore, 2005; Putnam et al., 2008)。硬骨鱼(teleost fishes)的祖先(Christoffels et al., 2004; Vandepoele et al., 2004)也被认为发生过两次古代多倍体事件(武汉水生所的何舜平教授在该领域也有诸多建树(Yang et al., 2013; Zhong et al., 2016))。
其实,早在1970年,日本学者Ono就提出了基因组加倍这一划时代的猜想。27年后,来自爱尔兰都柏林大学(The University of Dublin;爱尔兰语Ollscoil Átha Cliath)的Wolfe同合作者借助刚刚完成测序的出芽酵母(Saccharomyces cerevisiae)的基因组序列,在这种经典的模式生物中率先发现了自然界中基因组倍增的确实证据(Wolfe & Shields, 1997),被认为是对基因组倍增事件的首次描述(如果当初那些大佬们没有选择出芽酵母作为模式生物,估计全基因组倍增的发现还要向后推N多年后拟南芥被测序吧)。该次古基因组倍增时间发生于距今几千万甚至乎一亿年前左右,随着时间的推移,似乎大部分基因都已经丢掉一个拷贝甚至两个拷贝全部丢失,但仍有五百对以上的基因(注意是500对,不是500个)保留到今天。早期基因组倍增的研究所采用的的方法与昆虫和硅藻的文章有很大不同,主要是找寻基因共线性(gene collinearity或synteny)的证据。这一点大家看下面两幅图,很清晰。
图片来源:https://biologos.org/blogs/dennis-venema-letters-to-the-duchess/the-origin-of-biological-information-part-5
图片来源:https://www.nature.com/articles/nature10625
btw:想学习怎样用circos产生这种基因组加倍的经典graph吗?欢迎访问生信人制作的专题视频教程。
既然如此普遍,那么基因组倍增有什么好处呢?学术界对于这个问题有很多探讨。小编其实也不甚清楚,在这里简单说一下。基因增多了,那么基因的表达量可能也会跟着增加,转录起来也带劲(不知道多倍体植物是不是都比较个大)。第二,一个基因多一个拷贝,也算是多一份保险。万一其中一个基因挂了,还有另一个,在危难关头可以起到很大作用。再者,增加的拷贝可能完全是冗余的,换句话说,也就是一个基因就足够了。在这种情况下,原始的拷贝需要保持原始的功能,而新增加的拷贝会慢慢积累突变,因为这些突变的危害性会减小(还有另一个拷贝执行原始的功能)。于是乎,随着时间的推移,突变的拷贝可能恰好突变出新的功能,如果这个功能对于生物体很重要,该基因可能就会成为重要基因留存在生物体内。还有一种情况,就是倍增后的不同基因拷贝各自分担了祖先基因的部分功能,也就是说必须在两个拷贝都存在于基因组的情况下,才能确保原始功能的完美复刻,也就是说两个拷贝的命运完全被绑定在一起,任何一个都不能丢。有个术语叫subfunctionalization,专门描绘这种现象。此外,多倍体化还被同地质事件联系在一起,有观点认为倍增的植物能够倍儿棒倍儿精神地挺过地质危险期,详见比利时根特大学著名的Van de Peer教授的一系列文章(Fawcett et al., 2009)。还有,基因组倍增还经常与物种分化的加速联系在一起,尽管这一观点也受到了一些质疑。
好了,话说回来,实际上,也有部分学者对于基于Ks对基因组倍增事件而进行推断提出了异议。其主要观点是历史上越久远的基因组倍增事件的基因丢失的多,发生的变化相对来说也要更大,因此保存的信号就不那么清晰,Ks峰越扁平,越难以判断。因此对于较为久远的基因组加倍事件的次数、时间以及具体发生在进化树上的哪一位置,在推断上应十分谨慎。小编搜罗到有两篇文献都指出了类似的观点(Tiley et al., 2016; Ruprecht et al., 2017)。小编曾在一次会议上碰巧与其中一篇文章的作者聊过天,他表示非常认同基于ks和基因树对基因组倍增事件的判定,只不过对于较古老事件的推断的准确性有所担忧。当然具体多少年前才称得上够久远,这位老兄也没有讲明。小编斗胆估计怎么着也要有五千万年甚至乎一亿年以上吧。
此外,前面说过,基因组加倍现象之前的报道主要是基于基因共线性(gene collinearity; gene synteny)的证据。基于Ks的推断绕过了这一障碍,使得古基因组倍增事件的推断可以在没有基因组序列的情况下进行。早年间ks峰可以说是作为对于共线性分析的补充证据,然而这几年其后来居上,势头生猛有如黄河泛滥一发不可收,一跃成为推断基因组加倍的利剑。这把剑虽然锋利,需要注意的是它是一柄双刃剑,其另一面也正是为部分学者诟病的。比如,对于硅藻古多倍体的这篇文章(当时是刚刚放在bioXriv上的preprint),来自比利时根特大学(University of Ghent)的Vandepoele教授(这位仁兄曾在硬骨鱼的古多倍体做出重要贡献,见上文)就曾发推表示了自己的疑惑:
在昆虫全基因组倍增的论文中作者只在家蚕(Bombyx mori)中找到了基因共线性的证据,但是要知道他们分析了27个昆虫基因组哦。作者表示限制他们做进一步分析的一个很重要的因素就是今时今日所能拿到的昆虫基因组数量有限且很多组装质量不高。硅藻的论文中,作者更是没有提及相关的证据。
小编曾就这一问题请教过来自加拿大的一位教授也是业内专家,他表达了两个看法:第一,基于基因共线性的方法显然更为严谨,提供的证据也最为有力。第二,ks峰不一定代表全基因组倍增,有可能是部分染色体倍增,或染色体大片段区域的倍增,不过全基因组倍增有较大可能性。
关于这个话题,大家怎么看呢?
参考资料
Barker MS, Vogel H, Schranz ME. 2009. Paleopolyploidy in the Brassicales: analyses of the Cleome transcriptome elucidate the history of genome duplications in Arabidopsis and other Brassicales. Genome Biology and Evolution 1: 391-399.
Christoffels A, Koh EGL, Chia JM, Brenner S, Aparicio S, Venkatesh B. 2004. Fugu genome analysis provides evidence for a whole-genome duplication early during the evolution of ray-finned fishes. Molecular Biology and Evolution 21(6): 1146-1151.
Cock JM, et al. 2010. The Ectocarpus genome and the independent evolution of multicellularity in brown algae. Nature 465(7298): 617-621.
Dehal P, Boore JL. 2005. Two rounds of whole genome duplication in the ancestral vertebrate. Plos Biology 3(10): 1700-1708.
Fawcett JA, Maere S, Van de Peer Y. 2009. Plants with double genomes might have had a better chance to survive the Cretaceous-Tertiary extinction event. Proceedings of the National Academy of Sciences of the United States of America 106(14): 5737-5742.
Jiao YN. 2018. Double the Genome, Double the Fun: Genome Duplications in Angiosperms. Molecular plant 11(3): 357-358.
Jiao YN, Wickett NJ, Ayyampalayam S, Chanderbali AS, Landherr L, Ralph PE, Tomsho LP, Hu Y, Liang HY, Soltis PS, Soltis DE, Clifton SW, Schlarbaum SE, Schuster SC, Ma H, Leebens-Mack J, dePamphilis CW. 2011. Ancestral polyploidy in seed plants and angiosperms. Nature 473(7345): 97-U113.
Li Z, Baniaga AE, Sessa EB, Scascitelli M, Graham SW, Rieseberg LH, Barker MS. 2015. Early genome duplications in conifers and other seed plants. Science Advances 1(10): e1501084.
Li Z, Tiley GP, Galuska SR, Reardon CR, Kidder TI, Rundell RJ, Barker MS. 2018. Multiple large-scale gene and genome duplications during the evolution of hexapods. Proc Natl Acad Sci U S A 115(18): 4713-4718.
Parks MB, Nakov T, Ruck EC, Wickett NJ, Alverson AJ. 2018. Phylogenomics reveals an extensive history of genome duplication in diatoms (Bacillariophyta). American journal of botany.
Putnam NH, et al. 2008. The amphioxus genome and the evolution of the chordate karyotype. Nature 453(7198): 1064-U1063.
Ren R, Wang H, Guo C, Zhang N, Zeng L, Chen Y, Ma H, Qi J. 2018. Widespread Whole Genome Duplications Contribute to Genome Complexity and Species Diversity in Angiosperms. Molecular plant 11(3): 414-428.
Ruprecht C, Lohaus R, Vanneste K, Mutwil M, Nikoloski Z, Van de Peer Y, Persson S. 2017. Revisiting ancestral polyploidy in plants. Science Advances 3(7).
Tiley GP, Ane C, Burleigh JG. 2016. Evaluating and Characterizing Ancient Whole-Genome Duplications in Plants with Gene Count Data. Genome Biology and Evolution 8(4): 1023-1037.
Vandepoele K, De Vos W, Taylor JS, Meyer A, Van de Peer Y. 2004. Major events in the genome evolution of vertebrates: Paranome age and size differ considerably between ray-finned fishes and land vertebrates. Proceedings of the National Academy of Sciences of the United States of America 101(6): 1638-1643.
Wolfe KH, Shields DC. 1997. Molecular evidence for an ancient duplication of the entire yeast genome. Nature 387(6634): 708-713.
Yang LD, Zou M, Fu BD, He SP. 2013. Genome-wide identification, characterization, and expression analysis of lineage-specific genes within zebrafish. Bmc Genomics 14.
Zhong ZX, Du K, Yu Q, Zhang YE, He SP. 2016. Divergent DNA Methylation Provides Insights into the Evolution of Duplicate Genes in Zebrafish. G3-Genes Genomes Genetics 6(11): 3581-3591.
本文为作者原创,原载于生信人微信公众号,有修正
网友评论