百香果染色体水平的基因组可提供对香气生物合成的见解
中文名:百香果染色体水平的参考基因组装可提供对香气生物合成的见解
英文名:Chromosome-level reference genome assembly provides insights into aroma biosynthesis in passion fruit (Passiflora edulis)
杂志:Molecular Ecology Resources
发表时间:2020年12月
影响因子:6.286
Passiflora edulis
passion fruit
一、研究背景
果树的种植引起了全世界园艺和农学家的广泛关注。高质量参考基因组的发展将为这些重要经济农业果树的品种育种、种质保护和科学研究提供遗传基础。然而,很大一部分果树基因组有相对较高的杂合子水平且包含丰富的重复序列,阻碍了对这些物种的研究。
全基因组复制事件 (WGD) 或多倍化使染色体加倍导致基因复制,随后导致新功能产生或子功能化。几乎所有果树植物基因组序列都经历过WGD事件。WGD事件不仅增加了植物基因组的大小,而且扩大了遗传变异,提高了转录调控的复杂性,进一步增加了物种多样性。
Passiflora Linn. (Passifloraceae) 西番莲属(西番莲科)是西番莲科中最大的属,共有520 种。Passiflora edulis Sims. (Passion fruit)百香果是一种多年生常绿攀缘藤,起源于南美洲热带,是西番莲科中种植最广泛的西番莲属。由于缺少基因组数据,关于其适应机制、气味合成途径和遗传进化的研究均受到了限制。完成一个最广泛种植的百香果物种染色体版本的基因组组装,可以为物种进化史和香气合成背后的遗传机制提供新的见解。
二、材料和方法
- 样品收集:百香果根、叶、茎和四个不同的发育阶段的果实,并储存于-80°C冰箱。
- 基因组测序:Illumina HiSeq X Ten测序平台、PacBio Sequel2测序平台
- 转录组测序:Illumina Novaseq测序平台
- 基因组调研图与组装:hifiasm、Pilon(version1.18)、BWA(version0.7.10-r789)、SAMtools(version1.9)、BUSCO(version3.0)
- Hi-C挂载:LACHESIS、BWA、ALLHiC、HiC-pro(version2.10.0)
- 蛋白质编码基因的预测:TBLASTN、GeneWise、Scallop(version0.10.4)、SNAP(version2006-07-28)、GENEMARK (version4.48_3.60_lic)、AUGUSTUS (version3.3.3)
- 功能注释:BLASTP、InterProScan (version4.8)、HMMER (version3.3)
- 重复序列分析:HMMER (version3.3)
- 非编码RNA鉴定:tRNAscan-SE (version1.3.1)、RNAmmer (version1.2)、INFERNAL (version1.1.3)
- 系统发育树构建:OrthoFinder (version2.4.0)、MAFFT (version7.407)
- 基因家族的扩张和收缩:MCL、CAFE
- 共线性和全基因组复制分析:The CIRCOS (version0.69-6)、MCScanX
- 水果中特异性表达基因的转录组分析和鉴定:Trimmomatic、bowtie (version1.3.0)、RSEM (version1.3.2)
三、结果
1.百香果基因组的测序和组装
根据k-mer计数估计基因组大小约为1.27Gb,通过流式细胞技术估计基因组大小约为1.41Gb。调研图的K-mer峰显示基因组属于中等的杂合子水平(0.75%)和高重复的序列(72.68%)。为了获得百香果的参考基因组,使用CCS 模型生成了223.91Gb的PacBio长读数据,随后被校正为9.8Gb的有效(HiFi)数据。HiSeqXTen平台也生成约89.12Gb(70×)的短序列。我们最初组装得到了1.40Gb的contig水平基因组,组装结果24088个contigs。基于k-mer计数策略,使用Khaper进一步识别和去除杂合子序列。所得组装为1.28Gb,contig N50为70Kb,最长contig 长度为6.87Mb。
使用BUSCO评估组装的完整性,其中88.1%是完整基因,66.8%为单拷贝基因,21.3%为多拷贝基因。此外,二代数据与组装结果进行比对,短序列比对率为99.21%,组装基因组的比对率为99.18%。通过与转录组数据组装的转录本进行比较,进一步评估了基因组组装。这些转录本98.93%的碱基和98.93%的序列成功比对至基因组上。
核型分析表明,百香果是一种二倍体,有9对染色体。使用75.96 Gb Hi-C数据scaffold组装水平的基因组进行挂载,scaffold N50是126.4 Mb,最长scaffold是281.91 Mb。共有1.27Gb序列挂载在9条假染色体上,占初始组装序列的99.22%。针对Hi-C数据评估,显示7.43%的唯一比对数据和59.31%的有效数据,对染色质相互作用的全基因组分析显示,沿对角线的Hi-C结果交互强度高。
图1 百香果500kb 分辨率下染色质相互作用的全基因组分析2.基因组注释
通过转录组预测、同源预测和从头预测,注释了39,309个蛋白质编码基因。平均基因长度为3,650 bp,平均有6.88个外显子,根据InterPro、eggNOG和Swiss-Prot数据库对这些基因进行了功能注释,注释结果分别为93.35%、88.63%和71.42%。使用COG、GO和KEGG数据库进一步注释了这些基因。大约81.81%的基因在COG中有同源基因,70.25%有GO term分类,25.58%的基因可以比对到已知的植物生物途径。BUSCO分析显示,在注释结果中有85.1%的植物保守基因。
转录因子 (TFs) 在植物发育及其对环境的反应中发挥着重要作用。我们基于PlantTFDB(3.0)从百香果基因组中预测了1722个转录因子。这些TFs可分为 52 个家族,其中bHLH(146个基因)、MYB(135个基因)、ERF(121个基因)、FAR1(115个基因)和293个NAC(110个基因)是前五TF家族。
使用INFERNAL将基因组序列通过比对Rfam数据库区分miRNA, sRNA,和snRNA,使用tRNascan-SE和RNAmmer预测tRNA和RRNA,预测到百香果基因组中有86个miRNA、28个sRNA、225个snRNA、939个tRNA和 784个 rRNA。
百香果基因组序列高重复,共有1104.86Mb重复序列,占基因组长度的86.3%。LTR是占主导性的重复类型,占基因组序列中的963.67Mb(75.35%)。还比较了Pacbio测序数据长度与基因组中LTRs的长度。Pacbio测序数据的最大长度和N50长度分别为291,409bp和15,170bp。LTRs的最大长度和N50的长度分别为45,317bp和2,567bp。这表明大多数PacBio测序数据都比LTRs长,足以跨越LTRs。LTRs包括两种主要类型,Ty1/Copia和Ty3/Gypsy,分别占组装基因组的15.09%和42.67%。非LTR逆转录转座子,包括LINE和SINE,占基因组序列的很小部分,分别占4.26%和0.1%。此外,共有28,229个串联重复序列被识别,占基因组序列的53.94Mb(4.22%)。
在百香果染色体上检测到33个假定的着丝粒片段。除Chr7缺失外,所有染色体均有分布。还确定了6个假定的端粒片段,其中3个在Chr1上预测,而在Chr2和Chr4和Chr8中只检测到一个。
3.进化及全基因组复制事件分析
为了分析百香果基因组中的共线性关系,我们使用BLASTP鉴定同源蛋白,并用MCSCanX识别同源蛋白。发现423个共线性块,有7776个基因对。CIRCOS图显示GC含量、基因密度、TEs分布和基因表达有协同关系。
图2 百香果染色体分布To study the evolutionary history and divergence time of passion fruit, we performed comparative genomic analysis of passion fruit with the genomes of the eight selected angiosperm species, including five Malpighiales 金虎尾目 plants (L. usitatissimum, M. esculenta, Po. trichocarpa, R. communis, S. purpurea), a Citrus 柑橘 plant (C. clementina), and two model organisms (A. thaliana and O. sativa).
为了研究百香果的进化史和分化时间,与 8种被子植物 的基因组进行了比较基因组分析,其中包括(L. usitatissimum, M. esculenta, Po. trichocarpa, R. communis, S. purpurea), (C. clementina), 和 (A. thaliana and O. sativa)。从417,083个基因中鉴定了40,345个基因家族。在百香果基因组中,从39309个基因中鉴定13972个基因家族,拥有8106个单拷贝基因。
与其他五种植物相比,百香果有760个特异的基因。GO富集分析表明,这些特异基因家族与RNA修饰、DNA整合、RNA定向DNA聚合酶活性、DNA重组、钙依赖性磷脂结合、不饱和脂肪酸生物合成过程和防御反应相关。KEGG分析表明,这些特异基因家族大多聚集于不饱和脂肪酸生物合成、脂肪酸代谢、异黄酮生物合成、硫胺酮代谢、类黄酮生物合成、苯丙烷生物合成、氨基糖和核苷酸糖代谢的途径。这些百香果特异基因家族的表达和调控可能导致其水果的特殊味道。
图3 百香果和其他五种植物基因家族的维恩图从上述9个植物基因组中鉴定出了79个高质量的单拷贝同源基因。Ks值显示,P. edulis - Po. trichocarpa的Ks峰值分布为0.81。P. edulis - S. purpurea是0.87,对应于63.48mya和68.18mya,百香果和其他两种植物之间的分化时间分别105.80mya(Ks=1.35, P. edulis - L. usitatissimum)和66.61mya(Ks=0.85, P. edulis - M. esculenta)。
根据Ks值的分布,研究了百香果基因组中的WGD事件。与之前研究一致,A. thaliana基因组峰值为0.76揭示了一个古老的WGD事件。P. edulis基因组揭示Ks分布的两个峰,一个峰在0.59代表~46.24mya发生的WGD事件,另一个在1.59代表双子叶植物的全基因组三倍化事件。植物基因组进化过程中,WGD和多倍化的频率高于哺乳动物,导致大部分重复基因和重复序列存在于植物基因组中。BUSCO分析显示,两个WGD事件导致了相对较高的重复水平(21.3%)。
图4 进化和比较基因组分析(a)比较基因组的同步基因间Ks值的密度分布基因家族的扩展和收缩可能在百香果的进化中起到至关重要的作用,导致表型多样化、对环境的适应甚至物种形成。对9株植物的基因家族扩张和收缩的比较分析显示,百香果基因组中有1525个基因家族已经扩大,5239个已经收缩。在50个显著的进化(p值<0.01)基因家族中,33个基因家族显著的扩张,17个基因家族显著的收缩。
对显著扩张的基因家族进行 Pfam 数据库比对,主要与包括酰基辅酶A脱氢酶/氧化酶、凝集素结构域、半胱氨酸结构域、SAM依赖性羧甲基转移酶、锌指(CCHC型)结构域和植物自溶性S1相关。KEGG富集 表明,大多数快速扩展的基因家族聚集于类黄酮生物合成、半乳糖代谢、二萜类生物合成、脂肪酸降解和脂肪酸代谢的途径。这些代谢过程可能与水果的发育及其味道形成有关。
图4 进化和比较基因组分析 (b)系统发育关系4. 转录组和代谢组结合分析揭示了香气合成的遗传机制
研究表明,酯和萜烯是百香果香气背后的主要挥发性成分。为了研究在芳香相关生物合成途径中发挥重要作用的基因,对四个不同发育阶段的果实(绿色、中间、轻度成熟的果实和成熟的果实)和其他植物器官,包括茎、根和叶等营养器官进行了转录组分析。我们首先鉴定了376个基因,它们至少在一个水果样本(FPKM>30)中高表达,但在的其他器官中下调且FPKM低于4。GO和KEGG分析显示376个特异性表达基因在类黄酮生物合成、含花青素复合生物合成和白氰苷氧酶活性中显著富集。花青素是天然的着色剂,赋予水果红色以及额外的营养价值。
根据前期研究,我们进一步收集了22个与水果发育和香气生物合成相关的基因。在这些基因中,45个在百香果果实中高表达。我们将这45个基因分为香气形成、水果成熟和碳水化合物代谢三个功能类别。香气形成类别中的大多数基因在水果样本中显示出阶段特异性的表达模式。对于编码3-羟基-3-甲基戊二酰辅酶a还原酶的HMGR,在水果第1阶段特别性高表达,证明了其在百香果发育早期生成异戊二烯类化合物中的重要作用。两个TPS基因(TPS1和TPS6)在水果第2阶段高度上调,很可能是百香果中类固醇积累的基础。两个ADH(alcohol dehydrogenases)基因(ZX.01G0025650 和ZX.01G0084850)在水果阶段3中特异性表达,可能在水果将六烯醇转化为醇过程中发挥重要作用。此外,AAT1、ADH3、LOX5和TPS10的表达水平在水果成熟过程中(从水果1到4阶段)逐渐增加了,这意味着它们在类萜醇和挥发性酯化合物的积累中发挥了重要的作用,最终导致百香果宜人的香气。
同时还分析了与水果成熟及碳水化合物代谢相关的基因。SAMS2,催化半胱氨酸为S-腺苷甲硫氨酸,在水果发育早期的显示出高表达水平。在阶段2和3阶段分别富集了2份CYP71B34和2份PMEI。与此同时,三份ACO1,一份BLX1和ACS可能导致了水果成熟,参与碳水化合物代谢的三个基因(PFK、NpAIdP1和MCSA1)在第3阶段或第4阶段高度表达,说明了它们在百香果成熟中潜在的重要功能。
图5 乙烯和挥发性脂质化合物的生物合成途径 (a)转录组测序组织; (b)与其他组织相比百香果中高表达的基因成熟; (c)脂质挥发物的主要生物合成途径四、结论
(1)作者利用 PacBio 的 HiFi 测序模式和 Hi-C 技术进行了百香果的染色体水平基因组组装;
(2)1.28Gb的百香果基因组包含39,309个蛋白质编码基因和1.1Gb重复序列,其中LTRs是最主要的转座因子,占基因组序列的75.35%。
(3)两个全基因组复制事件导致基因扩展和新功能化,可能导致脂质代谢和特殊香气的积累。
(4)比较转录组分析确定了水果中376个可能与水果发育和成熟相关的特异表达基因,其中45个候选基因在果实发育过程中的乙烯和芳香合成途径中发挥了重要作用。
本文提供的基因组数据不仅促进百香果品种的分子育种,也为今后果实香气形成的深入研究奠定了基础。
image.png
网友评论