Covarrubias-Pazaran G (2016) Genome-Assisted Prediction of Quantitative Traits Using the R Package sommer. PLoS One 11:e0156744. doi: 10.1371/journal.pone.0156744
使用R包sommer进行基因组辅助的数量性状预测
摘要
农艺学重要性的大多数性状本质上是数量的,并且遗传标记已经使用了数十年来剖析这些特征。最近,随着下一代测序技术对主要和次要作物变得可行,基因组选择受到关注。混合模型已经成为拟合基因组选择模型的关键工具,但是大多数当前基因组选择软件只能包括除误差之外的单个方差分量,使得使用加性,显性和上位效应的混合预测对于显示杂种效应的物种是不可行的。此外,基于似然的软件用于拟合具有多个随机效应的混合模型,允许用户指定随机效应的方差 - 协方差结构尚未得到充分利用。一个名为sommer的新开源R包提出了使用混合模型进行基因组选择和混合预测目的,使用一个以上的方差分量并允许指定协方差结构。通过使用玉米和小麦基因型和表型数据的几个实例证明了使用sommer进行基因组预测。该计划的核心包含三种估算方差分量的算法:平均信息(AI),期望最大化(EM)和高效混合模型关联(EMMA)。包括用于计算加性,显性和上位关系矩阵的核,以及用于基因组分析的其他有用功能。sommer的结果与其他软件相当,但分析速度比小时数到几天都要快于贝叶斯对手。此外,通过组合一些最有效的算法以适应温和环境(如R)中的模型,可以实现处理缺失数据的能力,以及比其他基于REML的软件更大的灵活性和速度。
前言
随着新一代测序技术(NGS)变得更便宜,因此更可行的所有作物,巨大的基因数据集已经成为可用,给植物育种程序中选择和决策提供帮助[ 1,2 ]。用遗传标记加快和完善动植物养殖系统的想法,起源于1923年Sax在植物上首先报道一个简单的遗传性基因标记与数量性状的关联3,4]。另一方面,用于育种目的的统计工具的开发,特别是1949年亨德森的混合模型方程(在Searle的帮助下直到1963年才出版),引起了动物育种以基于血缘关系的选择、育种价值估计,以及育种材料的预测[5 - 7 ]。最近,已经在植物育种中利用遗传标记来检测标记辅助选择(MAS)的数量性状基因座(QTL)。然而,几十年的QTL研究后,在植物育种的QTL模式的实际应用和价值已受到质疑[ 8,9 ]。
随着过去十年中廉价和高通量基因分型技术的出现,出现了一种称为基因组选择的新的植物和动物育种选择范例[ 4 ]。基因组选择允许基于已知的标记效应或遗传关系(基于亲缘关系)预测个体的表型,并且在植物中它已被用于预测杂种和未实现的杂交的性状表现。一个提议基因组选择第一方法是称为岭回归(RR)的统计方法,其中,所述岭参数()可以在混合模型框架可以作为残差和随机效应方差的比。这可以应用于σ的基因组背景中是遗传方差,最佳线性无偏预测器(BLUP)可以解释为基因组估计育种值(GEBV),其中随机效应是指基因型效应,方差 - 协方差结构是加性或基因组关系矩阵(或)。遗传方差也可以以基于标记BLUPs形式的标记效应而言来解释[10 - 13 ]。
使用混合模型来估计育种和遗传值可以推广到更复杂的情景。混合模型可用于解决混合群体中的一般和特殊配合力。特别地,它们可以被用来预测未实现杂交,如在物种通常显示加性和显性(杂种)单交杂种的影响的性能[ 7,14 ]。这些效应,也称为一般和特殊配合力(分别为GCA和SCA),可以在混合模型中解析为具有特定方差 - 协方差结构(G)和以下分布的随机效应:
是第个随机效应的方差-协方差结构。
一般混合模型中的这种协方差结构通常是未知的,但在基因组选择理论中,这种协方差结构表示为个体之间的关系,通过加性、基因组或其他类型的关系矩阵来估计[13]。尽管允许基因组选择的所有分子和统计学进步,很少有开源基因组选择或混合模型软件,允许一次建模几个方差组分,特别是通过似然方法建模SCA效应,如一些流行的R包; regress,和EMMREML [ 13,15 - 19 ]。本文的目的是描述将R包Sommer的(solving mixed model equations in R),一个基于开源REML的软件包,可以处理多个方差组分,同时允许灵活地指定随机效应的方差 - 协方差结构,并将其与流行的贝叶斯和基于似然的软件进行比较。Sommer特别适用于显示强杂种优势或特异性结合能力效应的物种的杂交预测。该程序包依赖于基于最大似然(ML)和受限最大似然(REML)的三种算法; 高效的混合模型关联(EMMA)[ 20 ],直接平均信息(AI)[ 21,22 ],和期望最大化(EM)[ 23,24 ]。另外,sommer包括用于计算加性、显性和上位关系矩阵的其他内核[ 25 ]并执行全基因组关联研究(GWAS)(该软件可以在https://cran.rstudio.com/web/packages/sommer/找到并下载[ 2016年5月10日验证])。使用小麦数据(Triticum aestivum L.)进行基因组预测,以显示小的或无效的杂种优势效应,其中只需要添加核(单一随机效应),以及预测单交叉玉米杂交种(Zea mays L.),它需要使用加性和优势核(多个随机效应),并且可以扩展到任何显示杂种效应的物种。
材料和方法
算法
Sommer包来解亨德森提出的混合模型方程[6 ],通过使用mmer函数,以及一个称为mmer2的ASReml型版本,已经执行与每一个随机效应的关联矩阵和已知方差协方差矩阵的工作。如果省略关联或方差 - 协方差矩阵,则软件假定为单位矩阵。目前,支持三种方差分量估计算法; 高效的混合模型关联(EMMA)[ 18 ],平均信息(AI)[ 21,22 ],和期望最大化(EM)[23,24]。当仅估计误差方差分量()之外的一个方差分量时,EMMA方法很有用[25]。当需要估算多个方差分量时,应使用AI和EM算法。 AI算法是默认的,类似于其他商业软件,如ASReml [21]。
小麦群体基因组育种值估算
我们用小麦数据进行了基因组育种值估计(GEBV)和杂交预测,并将结果与其他基因组选择和混合模型软件进行了比较,包括rrBLUP [13],ASReml [21],regress(也使用synbreed)[ 17,18],EMMREML [19],MCMCglmm [15]和BGLR [16]。我们使用R包BGLR中包含的小麦数据,该数据由599个自交系组成,其基因分型为1279多样性阵列技术(DArT)标记[16]。表型数据包括来自历史CIMMYT全球小麦计划的599个品系的谷物产量(GY),这些品系在四个大环境中进行了评估。
从599个小麦品系中,可以进行179,101个不同的单个杂交。使用rrBLUP(岭回归),ASReml(平均信息),regress(Newton-Raphson),EMMREML(修改的EMMA),BGLR(使用再生核Hilbert空间[RKHS]内核)获得599行的基于亲属关系的BLUP预测,MCMCglmm(吉布斯采样)和在sommer(AI,EM和EMMA)中实现的三种算法。使用所有软件的BLUP之间的相似性在R中进行并且在表格和图中显示[26]。 599个近交系中每一个的基因组估计育种值(GEBV)用于预测可能杂交的表现,作为亲本系育种值的平均值。拟合的混合模型具有以下形式:
方差:
混合模型方程组:
其中,,是随机效应的方差协方差矩阵,来自多元正态分布,在基因组学语境中是加性或基因组关系矩阵(或)。 X和Z分别是固定和随机效应的关联矩阵,R是残差矩阵(这里是)。具有除误差()之外的单个方差分量的混合模型可用于估计遗传方差()以及基因型BLUP以利用在K(A)中编码的个体之间的遗传关系。根据VanRaden构建基因组关系矩阵,其中[27]。计算基因型BLUP并认为其等于GEBV,并且这些用于预测179,101个可能杂交的表现作为亲本基因组育种值的平均值。我们使用sommer软件包通过指定关联和方差 - 协方差矩阵并使用实现的三种算法(AI,EM,EMMA)来拟合此模型。此外,进行了5折交叉验证,以计算使用sommer软件包可用于小麦数据的4个mega环境中谷物产量的预测相关性。此外,遗传力估计为。
玉米单交杂种预测
模拟基因型数据,其由属于两个杂种优势组的40个近交系中的511个SNP标记组成(每个20个)。模拟的表型数据包括40个亲本的谷粒产量(GY)和植物高度(PH),以及由两个杂种优势组的单交叉产生的400个可能的杂种中的100个,允许杂种优势。对于两个杂种优势组(K1和K2),使用40个亲本的基因型来估计基因组关系矩阵为[27],并获得400种可能的杂种的基因组关系矩阵作为亲本基因组关系矩阵的Kronecker积。鉴于可能杂交的表型数据未被掩盖,通过估计BLUP对雄性和雌性的一般配合力(GCAfemale,GCAmale)和杂交的特殊配合力(SCA)及其方差成分(,,)来预测杂种。该模型具有以下形式:
该模型的混合线性方程组是
我们使用sommer软件包通过指定关联和方差协方差矩阵以及使用AI和EM算法来拟合此模型,因为EMMA方法无法估计多个方差分量。该模型无法在rrBLUP中实现,rrBLUP也仅限于单个方差分量。在BGLR包中使用了再生内核Hilbert空间[RKHS]内核,在ASReml和MCMCglmm中,“ginverse”参数用于指定方差 - 协方差结构,在regress包中使用ZKZ'内核的多个随机效应模型很合适。 EMMREML使用与sommer类似的语法。将其他软件的结果与sommer进行比较。此外,进行了五倍交叉验证以计算该群体中植物高度和谷物产量的预测准确度。
为了显示拟合包含显性(SCA)的模型与纯加性模型(GCA)相比显示杂种效应的物种的预测能力的优势,拟合了两个额外的模型,仅包括GCA效应; 1)父母具有相同的方差分量,2)来自不同杂种群的每个父母具有的不同方差分量:
和
在对植物高度和谷物产量进行500次5折交叉验证之后,比较模型的预测能力。使用sommer和默认的AI算法拟合模型。此外,两种性状的遗传力估计为 。
具有大数据集的功能以及与其他软件的比较
为了测试sommer与其他软件相比的能力,使用基于REML的对应物进行后验分析:rrBLUP,regress,ASReml,EMMREML和基于贝叶斯的:BGLR(迭代= 13000,老化= 2000),以及MCMCglmm(iterations = 13000,burn-in = 2000;默认参数)。使用更大的数据集进行这种比较。我们模拟了5000个个体的表型和基因型数据,其中10000个标记用于单个性状和单个加性核函数,遗传力h2 = 0.5并且估计了GEBV。计算时间作为针对单个方差分量情景的软件包中发现的不同ML / REML算法的总体大小(N)的函数。我们以500增量的间隔记录了人口大小从500到5000的经过时间,并使用R绘制。
Technow等[28]提供的表型和基因型数据用于预测来自Flint杂交组合的10578种可能的单杂交杂种的遗传值(GV),其中包括加性和显性效应(三个方差分量))。 在可能的时间和灵活性比较目的的同时,相同的模型配备了sommer对应物。 使用35,432个SNP标记对Flint和Dent系进行基因分型。 使用具有适应多种随机效应的能力的sommer和其他基于REML的软件,以1000个增量的间隔记录群体大小(N)的群体大小(N)的计算时间。
本研究中使用的所有基因型和表型信息均可免费访问,可在R包文档中找到。 玉米数据可以作为数据(cornHybrid),数据(wheatLines)和数据(Technow_data)进行访问。 可以在S1文件中找到所有分析的脚本。
网友评论