2021年5月20日晚间,中科院植物所景海春课题组、澳大利亚昆士兰大学与华大基因等机构的研究者在Nature Plants上在线发表了题为“Extensive variation within the pan-genome of cultivated and wild sorghum”的文章。该研究构建了世界上首个高粱泛基因组,揭示了高粱一级基因库资源广泛的遗传多样性,为高粱驯化研究和育种应用打下了坚实的基础。
此项研究的测序和组装数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号:CNP0001440。
研究背景及意义
高粱是一种适应性强且兼具多用途的粮食作物,它既是非洲和亚洲约5亿人口的主粮,同时又是广泛应用的能源、饲草,以及酿造行业的工业原料。高粱于距今6000年左右起源于非洲,其驯化模式有别于玉米水稻等主要禾本科作物,有多个驯化中心,驯化和散播过程中伴随着复杂的种间杂交和多种野生种质资源渗入事件,这使得高粱群体的遗传背景更加复杂,其在驯化过程中的瓶颈效应不明显。对高粱的组学和育种研究,一直滞后于其它主要作物,自2009年第一个高粱参考基因组发表以来,还一直没有具有广泛代表性的高粱泛基因组发表,本研究填补了这个空白。
研究内容
图1. 高粱泛基因组。基于基因的泛基因组通过16个高粱基因组中的基因聚类方法创建。a.各个样品的gene family的数量 b.泛基因组中基于可信度分类的core gene,shell gene和cloud gene的组成比例 c.每个样品中core gene,shell gene以及private gene的数量组成 d.core genes和shell genes之间的多态性差异图。e.core genes和shell genes之间的Ka/Ks差异图研究人员使用短读长、长读长、Hi-C、转录组等多种组学技术,结合生物信息学方法,对13个包含拟高粱、野生高粱和栽培高粱的品种进行了De novo拼接,加上之前已发表的3个栽培高粱参考基因组,构建了具有广泛代表性的高粱泛基因组。基因组组装Contig N50最高达到3.48 Mb。基于序列的泛基因组分析表明,高粱泛基因组大小为954.8 Mb,比已发表的高粱参考基因组(BTx623, 732.2 Mb)大30%,其中核心基因组序列占比62%,非核心基因组序列占比38%。对各个品种的基因组进行注释得到的基因数目范围为31898-37512个,共包含4万多个基因家族。野生高粱比栽培高粱含有更多的特有基因,该泛基因组的发表极大地丰富了高粱的基因资源库。
通过基于基因的泛基因组分析,发现核心基因占比36%,非核心基因占比64%。与核心基因相比,非核心基因的核苷酸多态性以及Ka/Ks值更高,可能说明核心基因比非核心基因更保守。而大部分的核心基因比非核心基因具有更高的表达,可能说明核心基因在功能上更加重要。通过GO富集也发现,核心基因中富集在一些基础的关键的生物学过程,如籽粒发育、叶片发育、细胞分化、RNA加工等。而非核心基因中富集在一些可能跟抗逆以及适应性相关的生物学过程,如酰胺代谢过程、次生代谢过程及氨基酸转运等。
进一步,研究人员以BTx623为参考基因组,通过与其它高粱基因组比对得到了高精度的群体遗传变异图谱,共包含15,293,465 个SNP,个体包含的Indel数目约在30万至150万之间。相对于参考基因组,其它高粱个体基因组中有429至1118个基因存在拷贝数变异(CNV)。此外发现,不同高粱个体基因组上存在大量的存在缺失变异(PAV),影响的基因组范围从13.3 Mb到102.4 Mb。这些结果表明高粱个体之间的遗传多样性非常丰富,有利于野生高粱资源的开发和利用,是未来高粱组学和育种研究的重点。
图2 高粱genome范围内遗传变异的分布图。Lane A: 各染色体上常染色质和异染色质的分布Lane B: 各染色体上TE的密度分布Lane C: 各染色体上基因的分布Lane D: 各染色体上SNP分布Lane E:各染色体上PAV的分布Lane F: 各染色体上CNV的分布 G:Large-effect变异影响的基因的分布Lane H:PAV影响的基因分布为考察大片段结构变异对农艺性状的影响,研究人员又利用839个栽培高粱品种的全基因组变异数据,对高粱籽粒颜色表型进行了全基因组关联分析(GWAS)。在显著关联到的控制籽粒颜色的Yellow seed1基因上,结合泛基因组数据,可以识别到3216bp的PAV。另外一个GWAS识别到的候选基因SbRC,是控制水稻粒色的基因Rc的同源基因,其在泛基因组中也存在416 bp的PAV。这些PAV均对基因结构产生了功能性的影响,从而改变了相关农艺性状。高粱泛基因组的构建,为这种将重要农艺性状GWAS与大片段结构变异相结合的方法提供了基础,有望加速高粱功能基因组学和育种应用的研究。
图3 影响籽粒颜色基因相关的PAV变异。a. 基于839株高粱样品识别的籽粒颜色GWAS结果曼哈顿图 b.图示Yellow seed1 基因和sbRc基因的序列差异,图中红色代表PAV序列区域昆士兰大学陶永富老师、中科院植物所罗洪老师以及华大基因信息分析高级工程师徐加豹为论文共同第一作者,中科院植物所景海春研究员与昆士兰大学David Jordan教授以及Emma Mace教授为论文共同通讯作者。该研究得到了国家重点研发和中科院先导专项等项目的资助。
首发公号:国家基因库大数据平台
参考文献
Tao, Y., Luo, H., Xu, J. et al. Extensive variation within the pan-genome of cultivated and wild sorghum. Nat. Plants (2021). https://doi.org/10.1038/s41477-021-00925-x
信息来源:“华大科技BGITech”公众号
图片源于Nature Plants官网和“华大科技BGITech”公众号。
网友评论