由于单一或者少数参考基因组不能代表整个物种内全部的遗传信息,给群体研究带来了许多限制。近年来,泛基因组测序在动植物基因组研究中如雨后春笋般,势如破竹而来,仅2021年上半年就有多篇泛基因组文章发表。例如,续大豆泛基因组和图形基因组,之后又一重量级物种——水稻的泛基因组和图形基因组在2021年5月被以四川农业大学的研究团队报道。除此之外,高粱、棉花、白菜、茄子等泛基因组也在2021年上半年被相继报道。那2021年上半年有哪些已发表的泛基因组文章呢?
一、水稻泛基因组
文章题目:Pan-genome analysis of 33 genetically diverse riceaccessions reveals hidden genomic variations
发表时间:2021年5月
发表单位:四川大学等
发表期刊:Cell
影响因子:38.634
1、材料方法
选取33份(32份亚洲栽培稻和1份非洲栽培稻)具有高度代表性的水稻材料,利用平均测序深度为60X的PacBio测序结合Bionano技术组装了31个高质量的水稻基因组,结合已报道的日本晴和R498的基因组,构建了水稻泛基因组和图形基因组。
2、研究结果
(1)组装的31份水稻基因组的平均Contig N50达到12.88 Mbp,平均鉴定出40,082个蛋白质编码基因。构建的水稻泛基因组包含66,636个蛋白质编码基因,其中20,374个基因为核心基因,46,262个为可变基因。
(2)32个基因组与日本晴基因组的比较鉴定出171,072个非冗余的结构变异(SVs),包括164,009个存在/缺失变异(PAV),6,109个易位和954个倒位。这些SVs在染色体上呈不均匀分布,有140个SVs热点区域,位于SV热点内的变异可能经历更强的环境选择。
(3)使用非洲栽培稻CG14作为外群在亚洲栽培稻中推断出130,862个代表衍生状态的SVs(dSVs)。与非dSVs相比,dSVs基因通常对环境压力更敏感。
(4)在水稻泛基因组中共鉴定出25,549个基因拷贝数变异(gCNVs),包括GL7和Sc以及320个未报道的功能性研究基因。此外,gCNVs可以导致异位表达模式。
(5)这些SVs主要的形成机制是转座子插入,其次是非同源末端连接(NHEJ)。尤其是长末端重复(LTRs)等转座元件能够以某种方式频繁地为NHEJ产生DNA断裂,或者通过提供同源序列来促进非等位同源重组。
(6)使用日本晴基因组作为基础线性基因组,将66,542个PAVs整合到日本晴基因组中构建了图形基因组。将674份重测序数据比对到基于图形的基因组证明了水稻图形基因组的有效性。例如,SV-GWAS在6号染色体上发现了一个含两个SV的基因座与叶片早衰显著相关,该位点未被SNP-GWAS鉴定到。
图1 SVs对基因的影响促成了环境适应和驯化(图片引自文献[1])二、高粱泛基因组
文章题目: Extensive variation within the pan-genome of cultivated and wild sorghum
发表时间:2021年5月
发表单位:澳大利亚昆士兰大学等
发表期刊:Nature Plants
影响因子:13.254
1、材料方法
利用Illumina、PacBio测序结合Hi-C等多种技术从头组装了13个包含拟高粱、野生高粱和栽培高粱的高粱基因组,结合已发表的3个高粱基因组构建了首个高粱泛基因组和图形基因组。
2、研究结果
(1)组装基因组的Contig N50最高为3.5 Mb。每个基因组中预测的基因数量为31,898-37,512。将从每个基因组新鉴定的序列与参考基因组结合构建了954.8 Mb的基于序列的高粱泛基因组,比732.2 Mb参考基因组大30%。泛基因组序列的62%被所有16个基因组共享。
(2)将16个基因组的预测基因聚类成基因家族,总共鉴定了44,079个基因家族。有15,867、28,026和186个基因家族分别为核心、非必需和私有基因家族。每个高粱基因组由58.8%的核心基因、37.9%的非必需基因和3.3%的私有基因组成。与核心基因相比,非必需基因和私有基因的长度更短,外显子更少和更高的表达量,但非必需基因表现出更高的核苷酸多态性和更高的Ka/Ks。
(3)基因组比对总共鉴定了15,293,465个SNP,每个基因组鉴定出0.3-1.5 M InDels,429-1,118个基因表现出拷贝数变异,19,359-147,899个PAVs。共有101,839个参考基因组存在的PAVs,它们与12,542个基因模型重叠,有2,514个参考基因组基因受到PAVs的严重影响,这些基因被富集用于与生物和非生物胁迫相关的生物学过程,抗病基因在这组基因中显著富集。
(4)基于44份高粱中346,664个PAVs的分析表明,尽管驯化过程中受选择的PAVs与改良过程中受选择的PAVs包含的基因数量大致相同,但驯化过程中丢失或获得的基因数量远远大于改良过程中丢失或获得的基因数量。许多受选择的PAVs包含与驯化特性相关的基因,包括落粒性、休眠的丧失和籽粒大小的增加。
(5)基于839份栽培高粱对籽粒颜色的GWAS鉴定到25个显著关联SNPs。最显著的SNP与Yellow seed1对应,在高粱泛基因组中与该基因序列相关的一个3,216 bp的PAV显示出与谷粒颜色的变化显著相关。2号染色体上的显著SNP的候选基因SbRc在高粱泛基因组中存在一个416 bp的PAV,导致3份高粱材料中第二个外显子的缺失。
图2 高粱粒色变异相关的PAV分析(图片引自文献[2])三、白菜泛基因组
文章题目:Impacts of allopolyploidization andstructural variation on intraspecificdiversification inBrassica rapa
发表时间:2021年5月
发表单位:中国农业科学院蔬菜花卉研究所等
发表期刊:Genome Biology
影响因子:10.803
1、材料方法
利用Illumina、PacBio和Hi-C等技术通过基因组从头组装了16个不同类型的白菜基因组(大白菜、小白菜、菜心、油用白菜和芜菁等),结合已报道的大白菜和油用白菜基因组构建了由18个代表性材料组成的白菜泛基因组。
2、研究结果
(1)组装的白菜基因组的Contig N50为0.25–1.41 Mb,基因组大小为337–466 Mb。基因组中注释得到44,207–47,602个基因模型,43.59–53.51%的基因组序列被注释为重复元件,重复序列和基因组大小成正相关。
(2)白菜泛基因组中包含47,107个基因家族,每个基因组中平均有55.74%、25.00%、17.80%和1.46%的基因分别是核心、次核心、非必需和私有基因。核心基因的InterPro结构域含量、表达水平和平均长度均高于非必需基因。而长末端重复逆转录转座子(LTR-RTs)的插入更可能发生在非必需基因中,表明TE的插入促进了白菜种内多样性的变异。
(3)基于全基因组和基于单条染色体中的单拷贝直系同源基因构建的进化树并不完全相同,说明白菜种内多样性的复杂进化历史。基于基因组比对检测到33.24–56.7 Mb插入和35.75–58.84 Mb缺失,这些SVs倾向于在重复序列中富集,并且与形态多样化紧密相关。这些结果强调了在白菜种内基因组多样化过程中的结构复杂性。
(4)在18个不同的基因组中,保守共线性基因(CSG)平均占基因总数的13.42%,灵活共线性基因(FSG)中非同义/同义突变SNP的比例、含大效应突变位点的基因、积累的SV以及LTR-RT数量都显著高于CSGs。表明FSGs与白菜种内不同基因组的多样性有很强的相关性。
(5)FSGs的平均比例在LF亚基因组中显著低于MF1和MF2亚基因组。FSGs的比例在多拷贝基因中显著高于单拷贝和双拷贝基因,说明在种内分化过程中多拷贝基因更有灵活性。偏向多拷贝基因的基因灵活性与环境适应有关。
(6)将18个基因组的基因合并到一起重构了白菜的祖先基因组,发现LF亚基因组中的基因数和基因密度均高于MF1、MF2亚基因组。Chiifu的LF中丢失基因的密度低于MF1、MF2。这些结果表明LF亚基因组作为优势亚基因组保留了更多基因,而且LF亚基因组有较低比例的基因丢失。
(7)基于18个基因组比对获得的SVs构建了白菜的图形基因组,通过组间比较分别鉴定到1064、19和172个SVs与结球性状、小白菜驯化和芜菁驯化相关,说明SVs与不同形态的驯化相关。
图3 18个代表性白菜基因组和524个重测序白菜基因组的系统发育分析和变异景观(图片引自文献[3])四、棉花泛基因组
文章题目:Cotton pan-genome retrieves the lost sequences and genes during domestication and selection
发表时间:2021年4月
发表单位:华中农业大学
发表期刊:Genome Biology
影响因子:10.803
1、材料方法
对包含256份陆地棉地方品种(Ghlandraces),438份来自美国和其他国家的陆地棉改良品种(GhImpUSO),929份来自中国的陆地棉改良品种(GhImpCHN),261份海岛棉和29份其他棉属物种的1913份材料的已有重测序数据进行群体结构、GWAS分析和泛基因组构建。
2、研究结果
(1)基于1913份材料的重测序数据鉴定了63,084,975个SNPs,基于742份高测序深度棉花材料鉴定到32,099个缺失、7576个重复、1112个倒位、357个易位和173,166个拷贝数变异(CNVs)。群体结构分析表明,海岛棉种质是从陆地棉地方品种和改良品种中分离出来的,CNVs在陆地棉地方品种和改良群体之间有很大的差异。
(2)基于SNP和基于CNV的选择消除分析鉴定到A亚基因组中329 Mb的序列和D亚基因组中127 Mb的序列在驯化中受选择,在A和D亚基因组中173 Mb 和184 Mb的序列有改良信号。
(3)基于SNPs的GWAS鉴定到2,952个显著SNPs与纤维品质相关性状相关。经过筛选,定位了91个与纤维相关的主效QTLs。还鉴定了31个产量相关和3个开花期相关的QTLs。基于CNVs的GWAS鉴定到50 个QTLs,包含 370个显著 CNVs。13个CNV QTLs与SNP QTLs重叠。
(4)将1581个陆地棉和226个海岛棉的非参考基因组序列从头组装,获得了32,569个陆地棉基因和8,851个海岛棉基因。构建的陆地棉泛基因组大小为3388 Mb,有102,768个基因,包括63,489个核心基因、5,941个次核心基因、3,803个非必需基因和12,434个私有基因。海岛棉泛基因组为2575 Mb,有80,148个基因,包含68,789个核心基因、1796 个次核心基因、5867个非必需基因和2160个私有基因。
(5)在陆地棉和海岛棉中,核心基因的表达水平都高于可变基因,但可变基因具有比核心基因更高的 TE插入概率,更多的可变基因比核心基因经历了正选择,尤其是在D亚基因组中,表明D亚基因组可变基因比A亚基因组基因具有更快的进化速度。
(6)在驯化和改良过程中分别鉴定到2,785和7,867个等位基因增加的有利基因,以及6,753和3,866个等位基因减少的不利基因。许多不利基因在驯化过程中丢失,在改良过程中保留了相当多的有利基因。
(7)鉴定到56,486个SNPs与1196个PAVs显著相关,其中124个PAVs与89个性状QTLs重叠。位于染色体A08上的一个代表性的PAV(Ghir_A08G006710)的热点区域包含两个产量相关和两个纤维品质相关QTLs,单倍型比较、存在频率分析和RNA-Seq分析表明该基因代表了棉花改良过程中其他基因表达的潜在调控作用的最近损失事件。
图4 棉花驯化和改良过程中的PAV选择信号(图片引自文献[4])五、大豆泛基因组
文章题目:The pan-genome of the cultivated soybean (PanSoy)reveals an extraordinarily conserved gene content
发表时间:2021年5月
发表单位:加拿大拉瓦尔大学等
发表期刊:Plant Biotechnology Journal
影响因子:8.152
1、材料方法
基于GmHapMap数据库中1007份大豆种质资源的进化分枝图,选择了204份具有高度代表性的大豆种质材料,利用短读长数据进行从头组装和栽培大豆泛基因组构建。
2、研究结果
(1)与参考基因组比对获得108 Mb非冗余的新序列,在非参考基因组序列中共预测了3,621个蛋白质编码基因。最终构建的大豆泛基因组(PanSoy)总大小为1,086 Mb,有54,531个蛋白质编码基因。
(2)PanSoy包括49,431 个核心基因、1,401个次核心基因、3,402个非必需基因和297个私有基因。核心基因组包含高度保守的基因,而可变基因具有更高的非同义/同义(dN/dS)替换的比率,且对与防御、信号和发育相关的农艺性状的表型变异具有重要贡献。此外,可变基因在某些基因组区域富集,而核心基因组在转座因子相关和甲基化基因中富集。
(3)94.3%的基于短读长的基因PAV被长读长测序的数据支持,表明新的非参考序列的鉴定质量很高。
图5 PanSoy的基因组组成(图片引自文献[5])六、茄子泛基因组
文章题目:Improved genome assembly and pan-genome provide keyinsights into eggplant domestication and breeding
发表时间:2021年5月
发表单位:意大利都灵大学等
发表期刊:The Plant Journal
影响因子:6.535
1、材料方法
根据基因型、表型和地理分布从代表了来自世界范围的大约3600份基因型材料中选择25份材料,对16份未测序材料进行Illumina测序,对所有25份材料进行从头组装,结合参考基因组构建泛基因组。
2、研究结果
(1)组装得到的基因组大小为826 - 999 Mb,N50为3 - 26.8 kb。与参考基因组比较鉴定出大约51.5 Mb的新序列,预测了816个蛋白质编码基因。构建的茄子泛基因组总大小为1.21 Gb,包含35,732个蛋白质编码基因。
(2)茄子泛基因组包含31,424个核心基因、922个次核心基因、1,556个非必需基因和1,246个私有基因。核心和次核心基因包含高度保守的基因,而非必需和私有基因包含所谓的柔性基因。参考基因组包含大多数高度保守的基因和大约78%的柔性基因。
(3)组装了26份材料的完整叶绿体基因组,总共鉴定出79个蛋白质编码基因、29–30个tRNA基因和4个rRNA基因,还鉴定了3个假基因和14个含内含子基因。
(4)将26份材料的基因组序列与泛基因组序列比对鉴定得到15,004,464个SNP/Indels。基于泛基因组和泛叶绿体基因组的系统发育将这些材料分成两个主要分支,并通过基于SNPs和PAVs的主成分分析(PCA)证实,揭示了茄子核基因组的遗传多样性。
(5)从茄子核基因组中鉴定出53个与果实颜色、皮刺有无和果形等性状相关的选择性消除功能基因,强调了茄子栽培种从野生祖先中出现的选择。
图6 茄子泛基因组(图片引自文献[6])七、总结与展望
从已发表的泛基因组文章可以看出,泛基因组的应用已经从重要粮食、油料作物发展到小杂粮、园艺作物等物种。未来,泛基因组研究将成为大多数物种基因组研究的下一个目标。在研究策略上,由于测序成本的降低,基于PacBio等长读长测序和从头组装的泛基因组研究策略已经成为重量级泛基因组研究的标配。特别是继2020年大豆泛基因组之后,图形基因组被带入大家的视野,并被逐渐应用于更多的物种。
参考文献:
[1] Qin Peng, Lu Hongwei, Du Huilong et al. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations.[J]. Cell, 2021.
[2] Tao Y, Luo H, Xu J, et al. Extensive variation within the pan-genome of cultivated and wild sorghum[J]. Nature Plants, 2021, 7(6): 766-773.
[3] Cai X, Chang L, Zhang T, et al. Impacts of allopolyploidization and structural variation on intraspecific diversification in Brassica rapa[J]. Genome Biology, 2021, 22(1): 1-24.
[4] Li J, Yuan D, Wang P, et al. Cotton pan-genome retrieves the lost sequences and genes during domestication and selection[J]. Genome Biology, 2021, 22(1): 1-26.
[5] Torkamaneh D, Lemay M A, Belzile F. The pan‐genome of the cultivated soybean (PanSoy) reveals an extraordinarily conserved gene content[J]. Plant Biotechnology Journal, 2021.
[6] Barchi L, Rabanus‐Wallace M T, Prohens J, et al. Improved genome assembly and pan‐genome provide key insights on eggplant domestication and breeding[J]. The Plant Journal, 2021.
网友评论