纵观各领域焦点文献,不难发现,目前研究者们主要采用四种组装策略:
第一种策略是依赖于亲本序列进行高效组装的Trio-binning[1](Illumina+PacBio)法。这种方法虽简便易行,但在亲本为杂合子时易出现reads的错误划分;
第二种策略是不依赖亲本序列,结合Hi-C数据,产出染色体级别单倍型的DipAsm[2](HiFi+Hi-C)法,但对高度杂合区域易出现错误划分;
第三种策略是有效利用HiFi reads生成高质量单倍体的Hifiasm[3]法,与DipAsm相比,Hifiasm不仅保持了不依赖亲本从头组装的优势,还降低了对Hi-C数据的依赖性,简化了流程,一键式实现组装和定相,且可整合Hi-C数据帮助挂载,正逐渐成为高质量组装的首选方法;
第四种策略是多倍体组装策略——PolyGembler[4]或nPhase[5]法。其中前者分型需要提供家系数据,后者需要提供参考基因组序列。
由此可见,异源多倍体单倍型分型原则上需提供亲本序列,若不能提供,至少要提供其进化上的祖先种/近似祖先种序列(用于比对来拆分不同的亚基因组),并在后期帮助挂载。到此,单倍型组装的主流策略已介绍完毕,细心的你更青睐哪种策略呢?
虽然大家已经对单倍型组装策略有了一定了解,但我们仍需再趁热打铁一把,继续从文章分析内容出发,深入了解下单倍型基因组的研究思路!
一、研究背景
茶是一种极为重要的经济作物,含有多种被认为对人体健康有益的多酚化合物。茶树是无性繁殖农艺作物,这种无性繁殖能有效地保持有价值的基因型,避免其因分离或有性重组而丢失。同时无性繁殖也容易导致作物积累有害突变,造成植物突变负荷升高。个体中高水平的有害突变最终会降低相对适合度,从而降低农艺表现。目前关于茶的遗传负荷响应机制尚不清楚。本研究将通过组装茶单倍型基因组,对等位基因特异性表达进行分析,并结合全基因组重测序数据对群体遗传进化进行分析,以预测对茶树驯化育种具重要价值的分子机制。
二、材料方法
PacBio+Illumina+Hi-C组合测序策略。以1个铁观音(TGY)个体为样本,结合129个全基因组重测序数据和近期发表的61个非冗余全基因组重测序资料构建了一个完整的数据集。
三、主要结果
1.铁观音单倍型基因组组装
TGY的基因组大小约为3.15 Gb,杂合度为2.31%。文章首先使用PacBio长序列对初始contigs进行组装,随后使用Illumina短序列进行纠正,获得了大小为5.41 Gb的基因组,表明整个基因组具有高杂合度。接着,文章对杂合序列使用Khaper程序进行处理,得到大小为3.06 Gb的嵌合式基因组,此时contig N50为1.94 Mb,BUSCO完整性评估结果为93.7%。最后,文章利用TGY基因组的高杂合性,使用ALLHiC和Canu进行单倍型拆分和定相,从而产生15对假染色体和5.98 Gb的锚定序列。共线性分析结果显示:两种单倍型的基因序列高度一致。同时对单倍型间序列差异进行分析,发现两种单倍型之间序列的重叠率为98.3%。
图1 TGY基因组特征(图片引自文献[6])2. 铁观音单倍型基因组与茶树基因组变异研究
文章首先对单倍型基因组进行选择压力分析,发现86.9%的等位基因对包含至少一个非同义替换。这些差异表明,TGY单倍型基因组对揭示等位基因结构和功能差异具参考意义。随后文章对不同组织中等位基因表达情况进行分析,发现大多数等位基因的表达模式是一致的,例如单倍型B的CsSRC2基因在第二个外显子中具有两个3-bp的插入和一个78-bp的缺失,引入了两个额外的氨基酸(赖氨酸和天冬酰胺)和蛋白质序列中26个氨基酸的去除。而在单倍型A中也检测到一个非同义突变,使氨基酸由谷氨酰胺变为组氨酸。对CsSRC2进行转录表达水平分析,结果显示,在不同组织中CsSRC2等位基因表达模式一致。另外,文章还发现了386个在组织中表达有差异的等位基因,其中几个基因与挥发性有机化合物的生物合成有关,包括黄酮、黄酮醇和萜类化合物。随后文章对等位基因差异表达(ASE)结果进行统计,发现在14,691个基因中,有4,423个基因(30.1%)在茶叶中表现出显著的ASE。同时在6个组织中有1,528个基因偏向于一个等位基因的表达,这些基因通常与核糖体、自噬作用、转录因子和剪接体等多种生物学过程相关,提示减少有害突变的关键因子可能与基本生物功能中差异表达的基因相关联。
文章又收集了129份茶树材料和已发表的61份重测序茶树样品,进行了全基因组重测序,分析确定了9,407,149个SNPs和829,388个小Indels (< 10 bp)。文章接着利用496,448个单拷贝基因的SNPs进行系统发育分析,结果显示茶树主要分成3个类群:C. taliensis、C. sinensis var. sinensis(CSS)和C. sinensis var. assamica(CSA)。使用SplitsTree和TreeMix进行分析,结果显示茶树系统发育关系网络复杂,且茶树群体之间存在显著的基因交换。文章最后对CSA和CSS驯化基因进行分析,发现两个品种具有不同的芳香化合物、株高和耐寒性等特点,可能与驯化过程中人工选择作用相关。
图2 不同组织等位基因差异表达分析(图片引自文献[6])四、研究结论
该研究清楚地表明现代栽培品种种内和种间基因渐渗对遗传多样性的贡献,为茶树的进化历史提供了遗传学和分子生物学方面的见解。同时,该研究表明,PacBio+Illumina+Hi-C测序技术可以助力准确单倍型基因组组装,为分析变异与驯化机制提供基因组资源。
一、研究背景
荔枝是重要的热带水果,在20多个国家都有种植,其突出的营养成分和诱人的颜色,使其成为国际市场上具有吸引力的热带或亚热带水果之一。依据果实成熟期差异,荔枝品种可分为极早熟品种(EEMC)、中早熟品种(EMC)和晚熟品种(LMC)。果实品质较好的品种通常归属于LMC类群,而EEMC类群的品种数量较少,生产价值较低。然而造成荔枝品种差异的分子机制尚不清楚。研究荔枝基因组的结构和进化对促进荔枝及无患子科近缘植株的遗传改良具重要价值。
二、材料方法
PacBio+Illumina +Hi-C+10x Genomics组合测序策略。以妃子笑为高质量参考基因组,结合72份野生或栽培种质全基因组重测序资料构建数据集。
三、主要结果
1. 妃子笑单倍型基因组组装
妃子笑的初始组装基因组大小为962Mb,基因组杂合度2.27%。文章使用流式细胞仪或Survey方法评估基因组大小约为500或460Mb,说明初始组装版本包含两套染色体信息。所以文章首先使用HaploMerger2进行单倍型分型,选择与流式预估大小相近的基因组结合Hi-C数据进行挂载,得到了15条假染色体(pseudochromosomes),大小为470Mb,BUSCO评估结果为96.2%。由于妃子笑基因组具高杂合度,使得文章能够接着利用 SNPs的reads分型组装方法和10x Genomics测序数据,成功组装出妃子笑的两个单倍型基因组,然后利用不同群体材料全基因组重测序数据与15对染色体序列进行比对,根据覆盖度的差异获得了云南单倍型(HY,450M)基因组和海南单倍型(HH,455M)基因组,指明了妃子笑基因组的来源。最后文章对获得的单倍型进行了准确性的分析,发现HY和HH基因组序列之间总SNPs的平均杂合度为2.38%,与k-mer估计值2.27%相似,说明此次单倍型分型是准确的。
2. 荔枝全基因组复制事件和变异分析
生成单倍型基因组后,文章首先对荔枝基因组进行了全基因组复制事件(WGD)分析,发现荔枝仅发生过核心双子叶植物共有的全基因组三倍化事件,说明以荔枝为代表的无患子科近期没有发生WGD。随后,文章又收集了34份野生荔枝品种和38份栽培荔枝品种进行全基因组重测序分析,共鉴定出80,235,643个变异,为荔枝的遗传驯化研究提供参考。
3. 荔枝基因组等位基因差异表达分析
由于荔枝基因组中相关等位基因差异表达可能对其生长和进化产生深远影响。文章继续对35个荔枝样品中等位基因表达情况进行分析,发现约14,000个差异等位基因(DEAs)处于稳定差异表达状态。随后文章继续对妃子笑荔枝样品中等位基因表达情况进行分析,确定了13,517个DEAs。接着文章对DEAs分布区域进行汇总,发现这些DEAs在某些基因组区域中高度富集,例如,许多DEAs积聚在5号染色体的3′端。同时,文章发现与非差异表达的等位基因(EEAs)相比,DEAs的启动子、内含子以及3'UTR和5'UTR具有更高的SNPs密度,这表明DEAs表达量的差异可能与转录因子和启动子区的序列变异有关。最后文章对不同区域SNPs密度进行分析,发现外显子中的SNPs密度显著低于其他区域(例如,外显子与启动子的差异为1.47倍),同时对于这些外显子SNPs,转换比颠换更为普遍,且多数是非同义的。因此,文章推测DEAs的两个等位基因可能具不同功能,导致其对突变的耐受性较低。
图3 荔枝等位基因差异表达分析(图片引自文献[7])为了剖析荔枝果实成熟的调控网络,文章使用72个种质进行了全基因组关联分析(GWAS),发现一个开花相关基因(LITCHI019307)在荔枝中具差异表达。接着文章对不同品种基因结构进行分析,发现HY基因组中鉴定到的3.7 kb缺失片段可能有助于解释荔枝种质之间COL307差异表达和开花时间差异。
图4 荔枝LITCHI019307基因相关分析(图片引自文献[7])四、研究结论
该研究通过PacBio+Illumina+Hi-C+10x Genomics测序技术,结合全基因组重测序数据,助力准确单倍型基因组组装,并对等位基因在不同组织中差异表达情况进行分析,为利用变异助力驯化机制提供基因组与转录本资源。同时结合全基因组关联分析,为分子育种和基因组选择提供了理想的靶标,为培育多样化荔枝品种提供参考。
一、研究背景
生姜,广泛的药用植物和香料之一,是许多国家传统药用系统中最著名的非处方药之一。目前全球有超过39个国家在种植生姜,中国和印度是两个生姜生产大国。FAO的数据显示,2019年全球生姜产量为408万吨,是世界贸易中具重要经济价值的植物。同时生姜中具有多种生物活性化合物。其中,姜辣素依据其药理特性,被认为是生姜中最重要的药用化合物。然而,在姜属中,迄今为止只有叶绿体基因组序列已公布,可用来进行代谢相关研究的高质量基因组组装研究仍未开展,这种基因组资源的缺乏严重阻碍了人们对生姜基因组进化和姜辣素生物合成途径的理解。本研究将通过获得生姜高质量基因组与拆分单倍型基因组,进一步揭示生姜生物学和育种相关内容,并为物种特异性姜辣素生物合成途径提供依据。
二、材料方法
PacBio+Illumina +Hi-C组合测序策略。
三、主要结果
1. 生姜高质量基因组和单倍型基因组组装
为了对生姜的基因组大小进行评估,文章进行了k-mer分析,结果表明生姜基因组大小约为1.59 Gb,杂合度为3.6%。文章使用Illumina、PacBio和Hi-C测序数据,对生姜" Zhugen "(2n = 2x = 22)基因组进行组装。首先文章使用Falcon软件进行基因组contigs的从头组装,并使用Falcon phase进行定相。然后文章用Arrow抛光contigs并用Pilon校正。得到单倍型1和单倍型0。最后文章使用Hi-C数据辅助挂载,并获得了两套染色体水平的单倍型基因组,其中单倍型1的基因组大小为1.53 Gb,包含669个contigs(N50为4.68 Mb)。而单倍型0的基因组大小为1.51 Gb,具有636个contigs(N50为5.28 Mb)。
表1 生姜单倍型基因组间的变异差异(表中数据引自文献[8])2. 生姜单倍型基因组间的比较分析和等位基因差异表达分析
文章使用PacBio长序列验证单倍型1和单倍型0。发现PacBio长序列和单倍型1之间有97.95%的重叠,与单倍型0有98.1%的重叠,而两种单倍型之间的杂合率为3.78%,与k-mer分析一致,表明单倍型间的分相是精确的。为了进一步了解单倍型间的差异,文章继续对两种单倍型的选择压力进行分析,发现二者单拷贝基因的Ka / Ks比率是一致的,这意味着两种单倍型在生姜的驯化历史中经历了相似的选择压力。此外,文章通过共线性分析在两种单倍型之间共鉴定到了57个主要共线性块,且包含12个反转,表明单倍型间仍存在差异。随后文章继续对两种单倍型间的同源基因进行分析,共鉴定到了55,635个同源基因(占所有注释基因的72.0%)。然后文章进一步对两种单倍型的17,226个等位基因对的特征进行分析,发现大部分等位基因在染色体上的分布模式相似,且这些等位基因的表达水平在单倍型之间没有显著差异。但是有2,055个基因对(11.9%)表现出等位基因之间的差异表达,且这些差异位点主要在代谢途径中富集。
为了进一步揭示生姜生物代谢路径中的关键因子,文章对不同发育阶段生姜根和茎中的差异表达基因(DEGs)进行分析,发现不同发育阶段生姜根茎中共6,690个基因呈现显著下调表达趋势,773个基因上调。而转录组学和代谢物相关性分析表明,不同发育阶段组织中部分基因家族的表达模式与姜辣素和姜黄素的积累程度相关。
图5 姜单倍型基因组间等位基因差异表达与共线性分析(图片引自文献[8])四、研究结论
该研究通过PacBio+Illumina+Hi-C组合测序技术助力准确单倍型基因组组装,并对单倍型间差异进行了细致区分。随后,结合比较基因组,对生姜基因组进化情况进行研究;并结合转录组学和代谢组学对在不同发育阶段组织中等位基因差异表达情况和代谢物含量进行关联分析,分析了姜辣素生物合成基因家族成员之间的相关性,并提出了姜辣素类似物的骨架生物合成途径,为了解生姜代谢奠定了基础。
上述内容均显示,单倍型基因组是结合变异与差异表达分析的重要突破口,同时也是后续实现优质分析的先决条件。对分析内容进行总结后,不难发现,单倍型基因组与全基因组重测序相结合的研究方法可以为高水平文章的问世提供更多分析内容与保障。
参考文献
1. Koren S, Rhie A, Walenz B P, et al. De novo assembly of haplotype-resolved genomes with trio binning[J]. Nature Biotechnology, 2018, 36:1174–1182.
2. Garg S, FungtammasanA, Carroll A, et al. Chromosome-scale, haplotype-resolved assembly of human genomes[J]. Nature Biotechnology, 2021, 39:309–312.
3. Cheng H, Concepcion G T, Feng X, et al. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm[J]. Nature Methods, 2021, 18:170–175.
4. Zhou C, Olukolu B, Gemenet D C, et al. Assembly of whole-chromosome pseudomolecules for polyploid plant genomes using outbred mapping populations[J]. Nature Genetics, 2020, 52:1256–1264.
5. Saada O A, Tsouris A, Eberlein C, et al. nPhase: an accurate and contiguous phasing method for polyploids[J]. Genome Biology, 2021, 22:126.
6. Zhang X, Chen S, Shi L, et al. Haplotype-resolved genome assembly provides insights into evolutionary history of the tea plant Camellia sinensis[J]. Nature Genetics, 2021, 53:1250–1259.
7. Hu G, Feng J, Xiang X, et al. Two divergent haplotypes from a highly heterozygous lychee genome suggest independent domestication events for early and late-maturing cultivars[J]. Nature Genetics, 2022, 54:73–83.
8. Li HL, Wu L, Dong Z, et al. Haplotype-resolved genome of diploid ginger (Zingiber officinale) and its unique gingerol biosynthetic pathway[J]. Horticulture Research, 2021, 8:189.
网友评论