美文网首页
文献解析-HiFi测序组装苹果单倍型基因组

文献解析-HiFi测序组装苹果单倍型基因组

作者: 贝瑞科服 | 来源:发表于2020-11-06 11:11 被阅读0次

PacBio HiFi测序兼具测序读长长和碱基准确性高的特点,在大型、复杂基因组的高质量、快速组装方面具有巨大优势。此外,利用针对HiFi数据开发的Hifiasm和HiCanu等组装软件,可实现杂合基因组两套单倍型基因组的组装。这使得对具有基因组大、杂合度高和多倍体等特点的植物基因组遗传复杂性的深入解析所面临的挑战迎刃而解。2020年11月2日,康奈尔大学Boyce Thompson研究所、USDA-ARS植物遗传资源研究中心和山东农业科学院等单位利用HiFi测序等技术实现栽培苹果及其两个野生祖先种杂合基因组的单倍型基因组组装的研究成果在《Nature Genetics》发表。该研究充分体现了HiFi测序在单倍型基因组组装中的优势以及基于单倍型基因组进行物种驯化改良研究的潜力。

材料方法

M. domesticacv.Gala(PI 392303)、M. sieversii (PI 613981)和M. sylvestris(PI 633825)分别构建不同长度的Illumina paired-end和mate-pair文库、10x Genomics和PacBio HiFi文库。Illumina和10x Genomics文库在IlluminaHiSeq 4000平台测序,并使用DeNovoMAGIC3组装,产生一个分相二倍体组装和一个未分相的组装;PacBio HiFi文库在PacBio Sequel II平台测序,使用Hifiiasm和HiCanu组装,使用遗传图谱和与已发表基因组的共线性对Scaffolds进行挂载。

表1 建库测序和组装策略(数据引自文献[1])

图1 基因组组装策略(图片引自文献[1])

研究结果

1.基因组组装和同源染色体构建

最终组装的分相二倍体基因组大小为1.31-1.32 Gb,传统的单倍型一致性基因组为652-668 Mb。尽管杂合度很高,但所有的组装都表现出很高的连续性,分相二倍体组装的Scaffold N50为3.3-4.3 Mb,单倍型一致性基因组为16.8-35.7 Mb。使用高密度遗传图谱和与已发表基因组的共线性,单倍型一致性基因组中96.7-97.8%的Scaffolds被成功挂载。分相二倍体组装的大小大约是单倍型的两倍,表明同源染色体在每个组装中被很好地捕获。大约93.7-95.5%的分相Scaffold 被分成两个非冗余集合(又称haplomes),它们被进一步锚定在17条同源染色体上。所有三份材料显示两个单倍型之间的高度共线性。

值得注意的是,与仅使用Illumina和10x Genomics数据的组装相比,使用Illumina、10x Genomics和PacBio HiFi数据组装的单倍型一致性基因组和二倍体基因组的连续性都有非常显著的提升。M. domesticacv.Gala、M. sieversiiM. sylvestris单倍型一致性基因组的Contig N50分别从62kb、70kb和127kb提升到2.32Mb、3.48Mb和18.88Mb;Scaffold N50分别从6.11Mb、6.30Mb和21.76Mb提升到23.92Mb、16.84Mb和35.68Mb;分别有7条、1条和5条染色体的双端组装出端粒,有5条、8条和8条染色体的单端组装出端粒。二倍体基因组的Contig N50分别从35kb、43kb和114kb提升到144kb、1.23Mb和1.94Mb。

表2 组装指标统计(数据来源于文献[1])

在分相二倍体基因组组装中预测了总共90,147–90,507个蛋白质编码基因,在单倍型一致性基因组组装中预测了45,199–45,352个蛋白质编码基因。

M. sieversiiM. sylvestris和Gala中均鉴定了单倍型之间的大量变异,包括2,387,290、2,591,444和2,929,832个SNPs,363,464、364,605和401,893个插入/缺失,以及202、343和330个倒位。

三个苹果基因组中大约58.7-59.4%是重复序列。在苹果进化过程中发生了两次长末端重复反转座子(LTR-RT)爆发,其中较早的一次发生在苹果和梨物种形成之前,最近的一次发生在M. sylvestrisM. sieversii分别分化为亚种群之前。在多次爆发后,LTR-RTs的进化可能在物种间创造了丰富的遗传多样性。

图2 Gala、M. sieversii和M. sylvestris的基因组进化(图片引自文献[1])

2.栽培苹果的基因组来源

分相二倍体基因组可用于解析苹果基因组的来源。Gala两个单倍型基因组之间的遗传距离在染色体间波动,平均差异高于两个野生种。两个Gala单倍型基因组之间的高差异区域对应于两个等位基因的杂合起源,而低差异的区域则强调来源于M. sieversiiM. sylvestris的纯合等位基因。推断栽培苹果基因组的28%-40%可能来源于M. sieversii,25%-37%来源于M. sylvestris。杂合Gala基因组编码了23%的具有杂交祖先的序列,表明Gala基因组的相当一部分保留了来自两个祖先的遗传信息。

图3 野生祖先对栽培苹果的遗传贡献(图片引自文献[1])

对91份材料的重测序和系统发育分析表明,M. sieversiiM. sylvestris种质聚为明显分离的单系分支,而驯化种质聚为侧系分支。对这些材料基因组起源的估计揭示了两个野生祖先对栽培苹果的重要遗传贡献。基于线粒体或叶绿体基因组的系统发育显示43份M. domestica材料中的30份与M. sylvestris聚在一起,表明栽培苹果中有来自M. sylvestris的大量母系血缘。

3.苹果果实发育过程中普遍存在等位基因特异性表达

分相二倍体基因组能够研究等位基因特异性表达(ASE)。在果实发育的13个不同阶段对Gala果实进行转录组分析发现,果实转录组主要由全基因组的ASE,其次由不同发育阶段的基因表达塑造。在Gala果实中有8,569个(19%)基因显示ASE,其中79%的基因在多个阶段存在等位基因不平衡。大多数ASE基因具有显性等位基因,其表达在显示ASE的所有阶段都始终高于其他等位基因,而仅112个基因观察到等位基因显性的转换。在ASE基因中,来自不同祖先的两个等位基因被过渡代表;然而,根据等位基因祖先分类的不同类型ASE基因的表达没有显示出对任何一个祖先的偏向,这加强了两个祖先在栽培苹果的基因表达调节中的关键作用。两个Gala单倍型基因组之间位于基因上游的SVs与ASE基因的距离明显小于与其他基因的距离,表明SVs可以作为顺式变异在Gala中驱动ASE。

图4 Gala果实中的等位特异性基因表达(图片引自文献[1])

许多ASE基因与果实发育和品质有关。Gala基因组包含两个PG1等位基因,在大多数果实发育阶段表达较低且难以区分。然而,在成熟期(盛花期后127天),与粉状质地相关的等位基因被表达到更高的水平,与Gala相对柔软的果实质地一致。成熟苹果的香气来自包括酯在内的挥发性化合物的复杂混合物。编码醇酰基转移酶的苹果AAT1是控制酯产生的主要基因。Gala中的AAT1基因表现出强ASE,在大多数发育阶段,来源于M. sieversii等位基因的表达水平远低于来源于M. sylvestris等位基因的表达水平。一个509bp的小型反向重复转座因子样序列插入了来源于M. sieversii等位基因的上游区域。在含有纯合等位基因并产生低水平酯的栽培品种“Granny Smith”中也发现了这种插入,证明其与AAT1表达和酯产生的关联,并表明Gala酯产生主要归因于源于M. sylvestris的等位基因。

4.性状相关选择性消除来自不同的祖先

M. domesticaM. sieversiiM. sylvestris的比较分别鉴定了总共1,633和1,504个基因组区域,累积大小分别为18.5和18.9 Mb,含有1,400和1,259个基因。在3,137个选择性区域中,1,295个和1,121个分别与M. sieversiiM. sylvestris有共同的基因组祖先。选择分数最高的基因组区域在6号染色体上,包含9个基因,包括一个在苹果果实发育期间上调的CLAF ATA 3/ESR(CLE)相关基因和一个编码短链脱氢酶/还原酶(SDR)的基因。CLE家族由一组主要的信号肽组成,在植物中表现出不同的功能。一个显著的例子是CLV3,其功能缺失等位基因可以通过调节果实大小来增加番茄产量。SDR参与生成与酒精相关的底物,这些底物是对苹果果实芳香气味有贡献的重要化合物。

图5 栽培苹果基因组的选择性消除(图片引自文献[1])

栽培苹果的果实大小主要遗传自M. sieversii。在6号染色体上的一个果实重量QTL被发现在一个被重组点包围的区域,而只有M. sieversii等位基因被栽培苹果遗传,表明在驯化过程中对该区域的强选择。在该QTL中发现了含有色氨酸转氨酶相关(TAR)基因的选择性消除。TAR参与吲哚-3-乙酸的生物合成,并且在果实发育的早期阶段其表达高。TAR在小麦中的同系物过量表达提高了籽粒产量,表明TAR在苹果果实大小调节中的潜在作用。

编码苹果酸转运蛋白的Ma1基因被确定为控制苹果果实酸性的主要位点。Ma1编码序列中1,455碱基的突变(G到A)导致蛋白质截短,这是苹果果实酸度低的主要原因。‘A’等位基因在M. sylvestris中的频率较低(4.5%),但在M. sieversii(33.3%)和栽培苹果(55.6%)中显著增加,这与栽培苹果的果实酸度水平与M. sieversii相当,但显著低于M. sylvestris一致。这些数据表明,栽培苹果的低酸度“A”等位基因主要遗传自M. sieversii。此外,栽培苹果中同时含有这两种等位基因的比例(66.7%)远远高于M. sieversii(44.4%)和M. sylvestris(9.1%),这与栽培苹果中的一个杂合基因座一致,该基因座负责消费者喜欢的中等酸度。

5.苹果群体结构和种群历史

群体结构分析表明苹果品种中有两个明显的基因库。M. sieversii样本采自天山两侧的哈萨克斯坦和中国新疆。最优聚类数下,新疆的材料显示了来自其他群体的低水平渗入的同质遗传背景。相比之下,哈萨克斯坦的种质由两个基因库组成,一些种质正处于强烈的渗入过程中。在更靠近古丝绸之路的地方取样了具有高水平渗入的材料,表明在苹果沿着丝绸之路向西传播的过程中可能发生了大规模渗入。M. sylvestris由三个地理亚群组成,其中两个已知来自东南欧和西欧。这些亚群之间的渗入很少,证实了亚群之间的地理隔离。

图6 苹果的群体结构和种群历史(图片引自文献[1])

对种群历史的推断表明,从大约0.9百万年前(Ma)开始,M. sieversiiM. sylvestris的有效群体大小(Ne)都在下降。Ne的收缩发生在被称为第四纪冰川的冰河时期(距今2.58 Ma),在许多其他植物中也很常见。M. sieversii的Ne在128至123千年前(ka)到达底部然后开始反弹,这对应于倒数第二个冰期(PGP) (130至113 ka)的结束和最后一个间冰期(130至115 ka)的开始,在此期间发生了冰川消退。M. sieversii的第二个瓶颈开始于40至30 ka,正好在最后一次冰川最大值(LGM)(33至19 ka)开始之前,这造成了一个不适宜生物生存的环境。在漫长而遥远的过去,M. sylvestris种群持续下降,说明气候波动可能导致了M. sylvestris种群持续萎缩。这与第四纪冰川作用缩小并分裂了M. sylvestris的地理范围的假设相吻合,因此导致了地理亚群的出现。

6.栽培苹果和野生苹果的泛基因组

通过对每份材料的重测序数据进行从头组装,分别构建了三个苹果属物种的泛基因组。在M. sylvestrisM. sieversiiM. domestica基因组中分别鉴定到89、212和141 Mb的非冗余非参考序列,分别含有1,736、3,438和2,104个新基因,使得泛基因组包含46,935、48,648和49,944个蛋白质编码基因。泛基因组大小的模拟表明所有三个物种都有封闭/饱和的泛基因组。对新基因的GO富集分析表明,与授粉、信号转导和胁迫反应相关的基因高度富集。由于驯化过程中来自野生种的遗传渗入,M. domestica具有最大的泛基因组,而M. sylvestris具有最小的泛基因组,与其种群历史中的恒定瓶颈一致。三个物种的核心基因组表现出不同的趋势,其中M. domestica的核心基因比例最低。核心基因在物种间相对保守,而可变基因在不同物种中表现出高可塑性。

将三个泛基因组聚类成69,411个直系同源物。其中,851个在M. domesticaM. sylvestris中比在M. sieversii中更受青睐、316个在M. domesticaM. sieversii中比在M. sylvestris中更受青睐、17个仅在M. domestica中受青睐。与野生祖先相比,驯化苹果中独特的优势基因要少得多,表明栽培苹果中的许多性状相关基因在野生祖先中可能已经存在功能差异,而驯化可能在基因选择上创造了相对较少的创新。抗病基因和自交不亲和基因在不同的优势基因群中被发现,与其快速进化相一致。

图7 栽培苹果和两个野生祖先种的泛基因组(图片引自文献[1])

参考文献

1. Sun, X., Jiao, C., Schwaninger, H. et al. Phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication. Nat Genet (2020). https://doi.org/10.1038/s41588-020-00723-9

相关文章

网友评论

      本文标题:文献解析-HiFi测序组装苹果单倍型基因组

      本文链接:https://www.haomeiwen.com/subject/xcqtbktx.html