今天分享一篇文献,来自去年12月张亮生团队发表在nature上的一篇文章:The water lily genome and the early evolution of flowering plants
睡莲属于被子植物睡莲目(Nymphaeales)。无油樟目(Amborellales)、睡莲目(Nymphaeales)和木兰藤目(Austrobaileyales)共同组成了早期被子植物类群(ANA被子植物类群),它们是现存被子植物的代表,从谱系分化的最早期发展到现存的被子植物。在此,我们公布了蓝星睡莲(Nymphaea colorata)的基因组(409Mb)。系统发育组显示,睡莲和无油樟属于早期被子植物类群。通过蓝星睡莲基因组及其他19个睡莲的转录组分析,显示睡莲科祖先发生了一次全基因组复制事件,这次复制事件可能由睡莲科(Nymphaeaceae)和莼菜科(Cabombaceae)所共享。在全基因组复制事件保留的基因中,有调节花期转变和花期发育的同源基因。蓝星睡莲中花ABCE同源基因的广泛表达,可能揭示了在早期被子植物花器官中可能具有类似广泛活跃的ABCE祖先模型。睡莲进化出了迷人的花香和颜色,这是被子植物共有的特征,在蓝星睡莲中我们推测出了它们的生物合成基因。花香味背后的化合物和生物合成基因表明,它们的进化与被子植物是平行的。由于其独特的系统发育位置,蓝星睡莲基因组揭示了被子植物的早期进化。
许多睡莲属(Nymphaea)物种,特别是睡莲科(Nymphaeaceae)的睡莲,花朵大而艳丽,属于被子植物(也称为开花植物)。它们的美深深吸引着许多著名的艺术家,例如法国印象派画家莫奈(Claude Monet)。睡莲的花被(外部花器官)分化有限,但它们同时具有雄性和雌性器官,并且具有多种不同的气味和颜色,与许多被子植物(核心被子植物,包括双子叶植物,单子叶植物和木兰科植物)相似(Supplementary Note 1)。此外,一些睡莲的生命周期短,种子数量多,这增加了它们作为早期被子植物类群(ANA被子植物类群)模式植物代表并研究被子植物内部早期进化事件的潜力。特别是,蓝星睡莲(N. colorata)的基因组相对较小(2n = 28;约400 Mb),且蓝色的花瓣使它在育种中很受欢迎(Supplementary Note 1)。
在此,我们利用PacBio RSII单分子实时(SMRT)测序技术获得的蓝星睡莲(N. colorata)基因组序列。基因组组装成1429条contigs (contig N50为2.1Mb),总长度409 Mb, 804个scaffolds,其中770个scaffolds锚定在14条染色体上(Extended Data Fig. 1 and Extended Data Table 1)。基因组完整性评估为94.4%(Supplementary Note 2)。我们对31580个编码蛋白基因进行了注释,并预测了总长度为160.4 Mb的重复元件,占总基因组的39.2%(Supplementary Note 3)。
蓝星睡莲(N. colorata)基因组为解决无油樟目(Amborellales)、睡莲目(Nymphaeales)和所有现存被子植物之间的关系提供了一个机会(Fig. 1a)。使用六个真双子叶植物,六个单子叶植物,蓝星睡莲及无油樟属,每三个裸子植物(银杏(Ginkgo biloba)、云杉(Picea abies)和火炬松(Pinus taeda))作为又一个类群,我们分别鉴定了2169、1535和1515个直系同源低拷贝核基因(****LCN****)(Fig. 1b)。当使用银杏(Ginkgo biloba)作为外群时,从核苷酸序列推断出的LCN基因树中,62%(475中的294)将无油樟(Amborella)作为所有现存被子植物的姐妹系,且自展支持度(bootstrap support)大于80%(type II, Fig. 1c)。而当使用云杉(Picea abies)和火炬松(Pinus taeda)作为外群时,在LCN基因树中,分别有57%和54%将无油樟(Amborella)作为所有现存被子植物的姐妹系,即支持无油樟(Amborella)是最早的被子植物类群。且利用氨基酸序列推断出的LCN基因树具有相似的系统发育模式(Supplementary Note 4.1)。
Fig. 1为了使稀疏分类单元采样的潜在缺陷最小化,我们还使用来自44个基因组和71个转录组的序列,包括ANA被子植物类群,双子叶植物,木兰类植物,单子叶植物和裸子植物外群(买麻藤(Gnetum montanum)、银杏(Ginkgo biloba)、云杉(Picea abies)和火炬松(Pinus taeda))的代表来推论被子植物的物种进化树。为了对这115个物种进行进一步的系统发育推断,我们根据不同的标准选择了5种不同的LCN基因集,包括1167、834、683、602和445个基因。对这五个数据集的分析均得出与无油樟(Amborella)相似的树形拓扑,睡莲目(Nymphaeales)作为所有其他现存被子植物的连续姐妹系。
使用101个严格的LCN基因以及基于21个化石的年龄对被子植物谱系的分子年代测定进行校准。推断出被子植物的冠龄为2.34-2.63亿年前(Ma)(Fig. 1d)。单子叶植物和双子叶植物之间的分界估计在1.71-2.02亿年之间,而睡莲科(Nymphaeaceae)和莼菜科(Cabombaceae)之间的分化在1.47-1.85亿年之间。
基因组共线性揭示了蓝星睡莲(N. colorata)发生全基因组复制(WGD)事件的证据(Extended Data Figs. 1f, 2a and Supplementary Note 5.1)。蓝星睡莲(N. colorata)旁系同源基因的每个同义位点上的同义替换(Ks)分布的数量进一步表明,有一个Ks约为0.9的显著峰值(Fig. 2a),而在其他睡莲科(Nymphaeaceae)物种中也鉴定到了类似的Ks峰值(Supplementary Note 5.2)。这表明,一个古老的单一的全基因组复制事件(WGD)可能是睡莲科成员所共有的。通过比较蓝星睡莲(N. colorata)旁系同源与蓝星睡莲(N. colorata)和其他睡莲目世系(Nymphaeales lineages)、红茴香(Illicium henryi)、无油樟(Amborella)之间的直系同源(代表物种形成事件)Ks分布,发现全基因组复制事件(WGD)发生在睡莲科(Nymphaeaceae)与莼菜科(Cabombaceae)分化之后(Fig. 2a)。相比之下,对至少包含一个来自蓝星睡莲(N. colorata)共线区域的旁系同源基因家族的系统基因组学分析表明,全基因组复制事件(WGD)在睡莲科(Nymphaeaceae)和莼菜科(Cabombaceae)之间共享(Fig. 2b, Supplementary Note 5.4)。如果属实,那么莼菜科水盾草(Cabomba caroliniana)似乎保留了很少的重复(Fig. 2b, c),这也可以解释水盾草(Cabomba caroliniana)旁系同源Ks分布中没有明显的峰(Supplementary Note 5.2)。考虑到Nymphaealean谱系中可变替换率(Fig. 2a****, b, Extended Data Fig. 2c),对蓝星睡莲(N. colorata)的绝对年代测定确实表明,全基因组复制事件(WGD)可能发生在睡莲科(Nymphaeaceae)与莼菜科(Cabombaceae)分化之前或接近于它们的分化(Extended Data Fig. 2d, Supplementary Note 5.3)。对上述结果的另一种解释可能是,全基因组复制事件来自于发生在睡莲科祖先和莼菜科系谱之间的异源多倍事件,在它们分化后不久,睡莲科(但不是莼菜科)的主干分支得以兴起(Fig. 2d, Supplementary Note 5.4)。
Fig. 2睡莲起源于被子植物早期分化的一个分支,早于被子植物大范围的辐射扩张。因此,睡莲家族为了解被子植物,特别是开花植物的早期进化,提供了一个独特的窗口。我们鉴定了70个MADS-box基因,包括参与花器官发育ABCE模型的同源基因:AP1 (还有 FUL) 及AGL6 (A参与萼片和花瓣发育), AP3 和 PI (B参与花瓣和雄蕊发育), AG (C参与雄蕊和心皮发育), 以及SEP1 (E与ABC功能蛋白相互作用)。对MADS-box基因及其基因组邻域的系统发育和共线性分析表明,在种子植物分化之前就存在古老的串联重复,产生了A功能基因(FUL)和E功能基因(SEP)的祖先(Extended Data Fig. 3, Supplementary Note 6.1)。此外,由于睡莲(Nymphaealean)全基因组复制事件(WGD),蓝星睡莲(N. colorata)具有两个旁系同源基因,即C功能基因AG的AGa和AGb(Extended Data Fig. 4)。类似地,由睡莲(Nymphaealean)WGD衍生的重复序列同与心皮和雄蕊发育相关的其他基因、以及调控开花时间及生长素调控花的昼夜开合的基因是同源的(Extended Data Figs. 4–6, Supplementary Note 6.2–6.4)。
蓝星睡莲(N. colorata)ABCE同源基因的表达谱与它们在花器官中推测的作用基本一致(Fig. 3a)。值得注意的是,蓝星睡莲(N. colorata)AGL6同源基因主要在萼片和花瓣中表达,而FUL同源基因主要在心皮中表达,说明AGL6在蓝星睡莲(N. colorata)中起A功能基因的作用。两种C功能同源基因AGa和AGb分别在雄蕊和心皮中高表达,而AGb也在萼片和花瓣中表达,表明它们可能在睡莲(Nymphaealean)WGD后经历了花发育的亚功能化和可能的新功能化。此外,与双子叶模型系统相比,蓝星睡莲(N. colorata)的ABCE同源基因在花器官中的表达范围更广(Fig. 3b)。这种更广泛的表达模式,与至少一些ABCE基因在一些双子叶植物中更广泛的表达相结合,代表了一个早期分化谱系,一些单子叶植物和木兰类植物,提出了一种古老的ABCE花发育模型,在被子植物,特别是核心双子叶植物的进化过程中,随后渠限化基因的表达和功能受到更特异的ABCE基因的调控。这也可以解释为什么在睡莲属植物中萼片和花瓣的分化是有限的,这与被子植物祖先花中花被器官的单一类型是一致的。
Fig. 3花香为昆虫传粉者提供嗅觉线索。然而无油樟属的花是无香味的,蓝星睡莲的花释放11种不同的挥发性化合物,包括萜类化合物(倍半萜烯)、脂肪酸衍生物(甲基癸酸酯)及苯环型化合物(Fig. 4a)。蓝星睡莲基因组包含92个假定的萜烯合酶(TPS)基因,这些基因归属于被子植物中4个已知的TPS亚家族:TPS-b, TPS-c, TPS-e/f 及TPS-g(Fig. 4b),但是在被子植物中没有发现负责倍半萜生物合成的TPS-a。值得注意的是,在蓝星睡莲中,TPS-b亚家族含有80多个基因;其中NC11G0123420在花中高表达(Extended Data Fig. 7);这一结果表明,该基因可能是蓝星睡莲倍半萜烯生物合成酶的候选基因。此外,并未在单子叶和双子叶挥发性化合物中检测到癸酸甲酯,其被认为是由蓝星睡莲(N. colorata)SABATH甲基转移酶家族合成的。蓝星睡莲(N. colorata)基因组包含13个SABATH同源基因,其中12个形成睡莲目特异性家族(Supplementary Fig. 41)。在这12个成员中,NC11G0120830在花瓣中表达最高(Fig. 4c),并且其相应的重组蛋白被证明是脂肪酸甲基转移酶,其以癸酸为底物具有最高的活性(Fig. 4d, Supplementary Note 7.1)。这些结果表明,蓝星睡莲(N. colorata)的花香生物合成是通过酶的功能完成的,而酶的功能是独立于被子植物的功能而进化的(Fig. 4e)。
Fig. 4睡莲(Nymphaea colorata)美丽迷人的蓝色花瓣被认为是很有价值的,这在观赏植物中是较为罕见的特征。为了理解蓝色的分子基础,我们鉴定到翠雀素(3′-O-(2″-O-galloyl-6″-O-acetyl-β-galactopyranoside))为主要蓝色花青素色素(Extended Data Fig. 8a–c)。通过比较两个蓝星睡莲品种中白色和蓝色花瓣中花青素生物合成途径中基因的表达谱,我们发现花青素合酶和翠雀素修饰酶基因的表达在蓝色花瓣中明显高于白色花瓣(Extended Data Fig. 8d, e)。这两种酶催化花青素生物合成的最后两个步骤,因此是蓝色素生物合成的关键酶。
睡莲在全球范围均有分布,包括寒冷地区(中国北部及加拿大北部),这与其他ANA被子植物类群不同,无油樟属仅在太平洋岛屿有分布,而八角茴香目仅在温带和热带地区有分布。与无油樟属及一些被子植物相比,我们发现蓝星睡莲中与免疫和应激反应相关的基因明显有扩张,包括编码核苷酸结合富亮氨酸重复(NLR)蛋白、蛋白激酶和WRKY转录因子基因(Extended Data Fig. 9, Supplementary Note 8)。这些基因数量的增加可能使睡莲适应了全球各种生态栖息地。
综上所述,蓝星睡莲(N. colorata)基因组为比较基因组学和解决被子植物间的系统发育关系提供了参考。它还揭示了睡莲科祖先发生的一次全基因组复制事件,并提供了关于被子植物早期发育及进化的重要见解,涉及诸如花的发育、花的气味和颜色等。
参考文献:##
Zhang, L., Chen, F., Zhang, X. et al. The water lily genome and the early evolution of flowering plants. Nature 577, 79–84 (2020). https://doi.org/10.1038/s41586-019-1852-5
补充:
1、外群的选择问题:
大多数的种系发生重建方法会产生无根树,但是观察树的拓扑结构无法识别树根应在哪一分支上。实际中,对于要证实哪一个分类单元的分支先于其他的分类单元,树根必须确定。
在无根树中设定一个根,最简单的方法是在数据集中增加一个外群(outgroup)。 外群是一种分类操作单元,且有外部信息表明外群在所有分类分类群之前就已分化。合适的外群与待分析的分类群关系不能相距太远,因为在比较关系较远的物种时,系统发生的信号会降低,这是核苷酸替换饱和的结果。使用一个以上的外群通常可以进一步改善推导的树状拓扑的准确度。
所谓的外类群就是与你研究的序列关系极为密切的序列,且外类群能很好的聚为一支(若外类群不止一条序列),若研究的是演化历史,一般应选择比目标序列具有较早进化历史的序列作为外类群。
另一种可选的引入外群的方法是,使用两套相同的、同时存在于待分析的所有分类操作单元中的并系同源基因。在这种方法中,第一个并系同源基因群中的基因可以成为第二个并系同源基因群中基因的外群。这种确定的系统已用于确定tree of life的第一层分支,树根可以置于通向生命树中细菌、古细菌以及真核细胞中任一分枝上。当使用单一外群时,根可以置于通向外群的分支上。另外,若使用多个外群,根必须置于连接外群和内群的分支上。
如果是鉴定物种,最好选一个外群。在缺少一个合适的外群时,根大约可以置于两个分类操作单元间最长支的中点上。这种确定根的方法叫做中点定根(midpoint rooting),当在树中所有分支的进化速度大致相同而且实际的外群与其它分类群间的支的长度不太短时,这种方法相当准确,但是中点生根这种方法慎用,它有一个假设前提:假设两个最不同的谱系以相同的速率进化。显然,这个假设现实中很可能不成立。
2、直系同源基因(ORTHOLOGOUS GENE)和旁系同源基因(PARALOGOUS GENE)
在进化过程中,新基因通常来自事先存在的基因,新基因的功能从先前基因的功能进化而来。新基因的原材料来自基因组区域的重复,这种重复可包括一个或多个基因。作为物种形成的伴随事件而被重复,并继续保持相同功能的基因,称为直系同源基因(orthologous gene)。新的基因功能可由在单个物种的基因组中发生的重复引起的。在一个基因组内部的重复导致旁系同源基因(paralogous gene)。
Orthology VS Paralogy
Relation of sequences
Orthologs: similar sequences that have arisen due to a speciation event.
Functionality Retained.
Orthologs: members of a gene (protein) family in various organisms.
Paralogs: Similar sequences that have arisen due to a gene duplication event.
Paralogs are not necessarily to have the same or similar functions. Probably become pseudogenes.
Paralogs: members of a gene (protein) family within a species.
Xenologs: Similar sequences that have arisen out of horizontal transfer events.
Examples: Transformation; Conjugation; Transduction; Transgene
Orthology VS Paralogy
3、Bootstrap和Jackknife
所谓Bootstraping法 就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列,一个多序列组也就可以变 成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比 较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。
Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。
4、姐妹群(sister group)
在分支分类学中具有一个不为其他分类单元所共有的祖先的两个分类单元称为姐妹群。姐妹群是由一个祖种通过分裂产生的一对分支,是建立系统发育系统的基本结构,根据近裔共性加以识别。
网友评论