近期,中国农科院作物所联合国内多家单位,构建了用于水稻基因组选择的大规模中国栽培稻群体数据集,提出了配套的全基因组预测深度学习模型DeepCCR,为育种者快速、高效地培育优良品种提供了有利工具。相关研究成果以简讯方式在线发表在《Plant Biotechnology Journal》上。
[图片上传失败...(image-92e664-1718722535132)]
水稻是世界一半人口的主食作物。传统的基于表型和标记辅助的选育方法已被用于水稻改良,但它们耗时、昂贵且劳动密集。因此,研究和实施提高水稻产量的新型育种策略是重中之重。基因组选择(GS)为克服这些限制铺平了道路。GS育种模型有效应用的主要因素是构建覆盖目标选择材料的基因组多样性的大规模训练种群。然而,在应用水稻育种方案中对普通人群的实际实施仍处于起步阶段,同样尚未对各种性状的基因组可预测性进行全面评估。
为了构建具有普遍代表性的训练种群,构建了中国第一个栽培稻种群(CCRP),该群体由来自中国25个省份的4015个水稻种质组成,覆盖了五个主要水稻种植区,占中国水稻年总种植面积的99%以上(图1a)。这些种质包括1943个籼稻种质和2072个粳稻种质,其中96%以上是栽培品种和育种系(图1b)。聚类分析显示,CCRP与3 K群体有很大不同。作者认为,CCRP代表了中国几乎所有水稻种植区水稻品种的特征和遗传多样性(图1c,d)。为了准确、系统地研究CCRP的表型,选择了7个代表性地点连续两年在中国五个水稻产区(图1e)。产量性状一直是水稻育种的主要关注点,本研究中感兴趣的关键性状包括抽穗期(HD)、株高(PH)、穗长(PL)、分蘖数(TN)、每穗粒数(GP)、结实率(SST)、粒长(GL)、粒宽(GW)、千粒重(TGW)和产量(Y),连续两年收集表型数据,以评估重复性并纠正数据集中的系统偏差(图1f,g )。
为了满足水稻育种中基因组预测的需要,对4015份种质进行了重测序(图1h-k)并提出了DeepCCR,一种基于卷积神经网络结合双向长短期记忆的深度学习方法,用于预测不同种植地点的表型值(图1l,m)。为了评估 DeepCCR 的预测性能,将其与七个站点的四种最先进的方法(XGBoost、LightGBM、DNNGP 和 GBLUP)进行了比较。10倍交叉验证结果表明,在所有比较方法中,DeepCCR的性能最好。具体而言,在GZL站点,DeepCCR对水稻性状Y、HD、PH、PL、TN、GP、SSR、GL、GW和TGW的预测精度分别为79.7%、67.5%、75.3%、72.5%、66.9%、77.0%、73.2%、70.6%、64.3%和74.0%。DeepCCR的表现分别比第二名高出17.2%、11.7%、19.9%、12.8%、9.6%、12.6%、6.6%、12.8%、10.3%和12.6%。此外,与现有的先进方法相比,DeepCCR在均方误差(MSE)方面也表现出优异的性能。计算时间结果表明,DeepCCR的计算效率与其他模型相当。
接下来,作者探讨了模型在测试数据集上的预测性能,7个站点的10个性状之间的比较结果也证明了DeepCCR的优异性能(图1n)。在HF位点,DeepCCR对Y、HD、PH、PL、GP、SSR、GL和TGW性状具有较高的基因组可预测性(63.3%–78.2%),而对TN和GW的预测性能较低(图1o)。GZL、TH、NC、WH、KM和NN站点的DeepCCR预测结果也表现出很高的准确性。为了全面衡量DeepCCR的预测性能,计算了模型在七个站点的MSE,并获得了令人满意的结果。这表明该方法在对中国栽培水稻进行基因组预测方面做得更好。
此外,作者使用吉林省的主要品种吉粳816对DeepCCR的预测能力进行了外部验证。DeepCCR在预测吉粳816数据集中的10个性状方面表现出了出色的性能)。具体而言,预测的Y为1.71 kg(换算为564.3 kg/亩),预测的HD为102 d,与实际大田种植的预测值一致( https://www.ricedata.cn/ )。考虑到HD和Y是评估种质生态适应性的关键指标,继续对剩余6个种植点的吉粳816性能进行验证和预测。吉庚816的HD低于当地品种的25%分位数;然而,TH和KM的预测Y分别达到了当地品种的中位数和25%分位数(图1p)。这些结果表明,吉粳816对TH和KM表现出较好的适应性,可作为优良育种系辅助品种改良。结果还表明,DeepCCR模型在预测水稻新品种性状方面表现出色。此外,该模型可以评估给定品种水稻最合适的种植地点。
[图片上传失败...(image-86ff11-1718722535133)]
为了方便育种者使用该模型,我们构建了一个包含DeepCCR模型的Web服务器(www.ai-breeder.com)。用户只需提交标准的FASTQ或VCF文件,系统自动提供不同站点10个性状的预测结果。
在这项研究中,我们构建了第一个用于水稻基因组选择的大规模中国水稻群体数据集。我们还进行了一项全面的多年、多地点表型调查,并开发了一个配套的深度神经网络模型来预测表型和适合种植的生态区域,以及一个易于使用的在线网络服务器。本研究中提供的数据集和结果为育种者提供了一个框架,以快速有效地培育优良的水稻品种,以解决全球粮食安全问题。此外,随着数据集中材料数量的增加和多组学数据的更全面收集,DeepCCR 的预测性能将进一步提高,以加强作物改良计划。
作科所副研究员马小定、博士生王浩和北京博凯森生物科技有限公司吴盛阳为本文共同第一作者,作科所韩龙植研究员、闫燊助理研究员和安徽省农科院水稻研究所周坤能研究员为论文的共同通讯作者。该研究得到了国家重点研发计划、科技创新2030-重大项目和中国农业科学院科技创新工程项目的资助。
网友评论