Wang C, Andersson B, Waldmann P (2009) Genetic analysis of longitudinal height data using random regression. Can J For Res 39:1939–1948. doi: 10.1139/X09-111
基于随机回归的纵向高度数据遗传分析
摘要:
利用随机回归(RR)对森林纵向高度数据进行遗传分析,有可能对树木育种者具有吸引力,因为它具有早期选择的优势。我们的研究提供了一个实施RR到森林树高度增长数据的例子。该数据集来自瑞典苏格兰松(Pinus sylvestris L.)育种计划,具有三代以上的谱系,由899棵树组成,具有16年的重建表型高度记录。勒让德多项式和B样条用作RR模型中的基函数。使用REML来估计(协)方差参数。结果表明,除早年(1至4岁)外,遗传力随年龄增长而增加。一般而言,RR模型的遗传力略高于大多数年龄的单性状和配对性状分析。此外,用B样条作为基函数获得的遗传力倾向于略高于用勒让德多项式获得的遗传力。 RR方法提供了一种有前途的方法,用于估计可用于早期选择的纵向数据的遗传参数。然而,在建立一般育种建议之前,需要应用来自其他物种的真实数据和模拟数据。
介绍
传统的数量遗传学在鉴定和培育优质树木方面非常成功,以便将来增加遗传增益。许多特性已成为树木育种计划的目标,但高度增长无疑是最重要的特征之一。生长特征是由他们的性质在同一个体上多次测量的;通过这些测量获得的数据通常被称为纵向或功能值数据,因为特征随着具有无限数值的一些独立且连续的变量而变化(Kirkpatrick和Heckman 1989; Pletcher和Geyer 1999)。许多树木具有较长的世代间隔,育种者通过对幼树进行早期选择来努力缩短繁殖周期。以前的研究提出,估计不同年龄的生长曲线或协方差结构将有助于早期预测成熟性状选择的反应(Magnussen和Kremer 1993; Wu 1999)。
到目前为止,至少有三种方法被建议用于功能价值性状的遗传分析:随机回归(RR)(Diggle等人1994; Jamrozik等人1997),正交多项式(OP)近似(Kirkpatrick和Heckman 1989),和性质过程(CP)模型(Pletcher和Geyer 1999; Jaffre磟ic和Pletcher 2000)。 RR模型已被广泛用于动物育种研究中的纵向数据分析,例如奶牛的遗传评估与试验日生产记录(Jamrozik等人1997)和肉牛生长性状(Nobre等人2003年; Meyer 2005b,2005a)。成功应用此方法的关键是选择适当的基函数以拟合未观察到的函数曲线。多项式通常用于此目的。近年来,一些研究人员提倡样条(例如,线性样条,三次样条和B样条)作为多项式的替代(Iwaisaki等人2005; Meyer 2005b; Misztal 2006)。 RR模型中多项式或样条的顺序和形状的确定目前是一个活跃的研究领域(Schaeffer 2004)。
与RR模型相比,OP和CP模型直接通过协方差函数拟合和估计遗传(共)方差结构,而不是在年龄或时间上拟合特征的未观察曲线。 Kirkpatrick和Heckman(1989)最初使用正交多项式(例如,勒让德多项式)作为非参数方法来平滑协方差矩阵而无需关于轨迹形状的额外假设。 CP是用于估计协方差函数的参数方法,其基于随机过程的理论。提出了不同的函数来模拟固定CP的不同协方差函数(Pletcher和Geyer,1999)。 Jaffre磟ic和Pletcher(2000)建议使用Box-Cox功效变换扩展非平稳CP。通过一些修改,可以使用受限最大似然(REML)方法来估计CP模型参数(Pletcher和Geyer,1999)。然而,这些修改增加了分析困难并且排除了更广泛地应用CP模型。 Meyer和William(1997)表明RR和OP模型是等价的,因为勒让德多项式具有相同的顺序,因此可以使用RR模型从数据直接估计协方差函数。
REML和贝叶斯推断是估计方差分量的主要方法,并且两者都已用于RR模型的遗传分析(Apiolaza等人2000b; Jamrozik 2004; Meyer和Kirkpatrick 2005)。已经提出了用于REML分析中的似然计算的不同算法,例如,无导数算法(Meyer 1989),期望最大化算法(Dempster等人1977)和平均信息算法(Gilmour等人1995)。 。贝叶斯推断侧重于后验分布,从中可以获得估计参数的进一步统计特性。贝叶斯马尔可夫链蒙特卡罗方法(例如,吉布斯采样)具有直观的吸引力,因为它们能够分析复杂的分层或多级模型(Sorensen和Gianola 2002)。然而,在复杂的多变量数据上使用贝叶斯马尔可夫链蒙特卡罗和吉布斯采样方法可能会带来一些困难,例如,缺乏评估收敛的良好方法,由于参数的高后验相关性而导致混合缓慢,生成足够后验样本的运行时间长,缺乏用户友好的软件。 Jamrozik(2004)研究了这些问题并提出Gibbs采样方法主要适用于估算具有相对较小数据集的方差分量。
尽管RR模型已成为纵向数据分析的标准,并且经常用于动物育种研究(Jamrozik 2004; Schaeffer 2004; Meyer和Kirkpatrick 2005),但它们很少应用于树木的遗传分析(Apiolaza et al al.2000b; Apiolaza和Garrick 2001)。最近的一些动物育种研究比较了不同的基础功能(Bohmanova等,2008);然而,这种比较从未进行过树木育种。 Apiolaza等(2000b)比较了Pinus radiata D. Don的开放授粉后代测试中在10个不同年龄测量的高度的不同加性遗传协方差结构,并且基于Akaike信息准则(AIC)得出结论,RR模型不满足拟合遗传结构。然而,Apiolaza和Garrick(2001)后来报道RR模型对木材密度的遗传参数进行了很好的估计。
本研究的目的是(1)将RR模型应用于16年重建高度生长数据,通过测量苏格兰松(Pinus sylvestris L.)F2繁殖种群中分枝轮生之间的距离,(2)进行比较结果来自RR模型的不同基函数,即勒让德多项式和B样条,以及(3)基于结果,讨论RR方法在树木育种中早期选择的可能用途。
网友评论