Sillanpää MJ, Pikkuhookana P, Abrahamsson S, et al (2012) Simultaneous estimation of multiple quantitative trait loci and growth curve parameters through hierarchical Bayesian modeling. Heredity 108:134–146. doi: 10.1038/hdy.2011.56
通过分层贝叶斯模型同时估计多个数量性状基因座和生长曲线参数
提出了一种新的分层数量性状基因座(QTL)定位方法,该方法使用多项式生长函数和多重QTL模型(在时间上没有依赖性)。该方法考虑基于群体的样品,其中个体已经针对某些动态性状进行表型分析(随着时间的推移)并且在给定的一组基因座处进行基因分型。所提出的方法的特定特征在于,代替平均功能曲线,每个个体具有其自己的功能曲线。此外,每个QTL可以通过其对一个或多个生长曲线参数的影响来修改个体的性状值的动态特征。该方法的明显优点包括:(1)假设时间无关的QTL和环境影响,(2)减少残差的自回归协方差结构的必要性和(3)使用变量选择方法的灵活性。作为该方法的副产品,还可以估计个体生长曲线参数的遗传力和遗传相关性,其被认为是潜在性状。为了在模型中选择与性状相关的基因座,我们使用了众所周知的贝叶斯自适应收缩技术的修改版本。我们通过分析来自模拟QTLMAS 2009数据集的500个个体的子样本,以及模拟重复和真实的苏格兰松(Pinus sylvestris)数据集,使用高度的时间测量作为感兴趣的动态特征来说明我们的方法。
关键词:功能定位;苏格兰松树; QTL; multitrait;贝叶斯模型; MCMC
介绍
已经提出了几种方法来定位影响动态性状的数量性状基因座(QTL)(即,表达随时间变化的性状)(参见Wu和Lin,2006年的综述)。即使在不同时间点测量的表型可以由不同的QTL组控制,但是时间点上的表型值通常是高度相关的。因此,已经提出重复测量框架用于随时间的性状测量的QTL分析(Lynch和Walsh,1998)。或者,可以将在不同时间点测量的性状视为单独的性状,并在多性状框架中共同分析。这里,就协方差函数而言,多性状框架的有效参数化提供了可行的方法(Macgregor等,2005; Lund等,2008)。然而,最常见的做法是使用一些数学函数来描述动态特征行为,然后定位QTL,这些QTL使用单个或多变量QTL定位来影响这个特殊函数。例如,逻辑增长函数(Ma等,2002; Wu等,2002,2003,2004),以及多项式函数(即多元回归模型)(Gee等,2003)和勒让德多项式( Yang等人,2006; Yang和Xu,2007)已被提出用于此目的。逻辑斯蒂生长函数在生物学上是合理的(West等,2001)。作为一种批评,使用逻辑函数的回归仅适合于S形的增长轨迹,即单调递增时间函数(Yang和Xu,2007)。 Legendre和其他正交多项式拟合(用于协方差函数)也受到Pletcher和Geyer(1999)的批评。通常,功能的选择应基于特征轨迹的复杂性。即使已经提出了几种方法,但大多数方法仅限于单QTL模型或双QTL模型。例外情况包括Yang和Xu(2007),Min等人,2011年以及Heuven和Janss(2010)的方法。
对于生长的QTL进行了单独的年龄 - 年龄分析,以解决木本树木中QTL稳定性问题(Verhaegen等,1997; Conner等,1998; Kaya等,1999; Lerceteau等,2001)。 。然而,据我们所知,Ma等(2004)是唯一一项将功能性QTL作图用于研究森林树种生长轨迹的研究。在他们的工作中,Ma等人(2004)指出,与替代QTL时间点分析相比,基于功能定位方法的QTL检测的统计功效增加。
功能性QTL作图方法通常用时间特异性QTL和环境效应模拟平均曲线行为(Yang和Xu,2007和Min等,2011)。这些方法中的个体特定变化被描述为与平均曲线行为的偏差,并且这些偏差取决于相邻时间点。 Gee等人(2003)和Heuven和Janss(2010)提供了这一共同主题的例外情况,其中所有与时间相关的行为都是通过个体特定的曲线参数来描述的,这些参数允许对QTL效应进行分层建模。这两个世界(等级和非等级)在概念上彼此非常不同。在Gee等人(2003)的参数化中,QTL效应不依赖于时间,它们影响曲线的形状而不是在特定时间点具有特定效应。为了描述随时间变化的功能曲线,我们在此考虑Gee等人(2003)的方法。作为对其方法的改进(以及Heuven和Janss,2010的方法),我们将整个问题表述为单一的层次模型。在我们的公式中,我们同时使用多重多QTL模型和模型选择,同时在贝叶斯框架中估计功能曲线和其他模型参数。
模型
让我们考虑基于群体的个体样本,其中数据样本已经针对某些动态特征进行了表型分类,并且在给定的一组标记基因座处进行了基因分型。虽然这代表了基于群体的单核苷酸多态性关联研究中的典型设计,但所提出的方法可直接应用于近交系中的回交和双单倍体,以及由近交系杂交产生的后代种群。处理缺失值时,我们完全忽略父母(连锁)信息,以便独立处理标记。这也意味着只有标记位置被认为是推定的QTL位置。有关替代方案,请参阅有关缺失基因型数据的小节。
表型模型随着时间的推移
对于每个个体,让我们假设是在时间点,测量的表型值。 我们使用以下回归模型来描述一段时间内的表型行为:
式中,是个体的曲线参数,假设误差项独立并且正态分布,在所有时间点都具有平均零和方差。 因为个体的曲线参数不同,我们预先指定以改善我们的分层模型中的参数可识别性(如下所述)。请注意,描述了允许每个时间点的测量值偏离个体特定曲线(即数据和生长函数之间的一致性水平)。 的合适值取决于数据的类型。 例如,对于增长数据,在我们的小模拟示例中使用,对于实际数据分析和QTLMAS 2009数据分析(的选定值不应太大,因为这可能导致 残余误差错误地解释了所有QTL变化。 数量是个体在时间点的年龄(在日历时间中,可以表示为与平均年龄的偏差;参见Gee等人,2003)。为简单起见,我们考虑所有个体的共同时间点和相同的年龄,对于所有时间点和全部个体,。
多性状QTL模型
我们将中的三个曲线参数视为三个潜在性状,并假设以遗传效应为条件,曲线参数是先验,且彼此相关。通过做出这样的假设,我们可以对曲线参数分层次地拟合多重QTL模型。 对于每个个体,假设存在个加性标记基因座,其具有基因型值,,两个纯合子编码为0或1,杂合子编码为0.5。 给定标记效应,每个曲线参数建模为不同基因座的基因型的影响的线性组合(加权和)。
式中,是基线参数,是残差,服从均值为0,方差为的独立同正态分布。不同的残差方差表示在向量中。自回归项包含在模型中以考虑特征之间的残差依赖性,以便可以假设实际残差是独立的。 自回归模型通常用于对时间序列数据中不同时间点之间的协方差进行建模。在这里使用相同的原理来模拟性状协方差(参见Bonney的D类模型,1986)。 请注意,即使在模型中可见单向依赖性,也会自动引入双向依赖关系,因为和是模型参数而不是模型中的观测量。 虽然假设具有非结构协方差矩阵的多变量正态分布残差的模型将是模拟这种现象的常用方法,但我们决定在计算基础上使用这种自回归模型。
在上述多性状QTL模型中,我们对每个基因座和每个性状使用自己的指示变量,其中k=0,1或2。尽管这些指标提供了一种监测QTL后验占有的自然方法, 如Pikkuhookana和Sillanpa(2009)所示,在模型中使用它们的真正原因是提高遗传力估计。 有关详细信息,请参阅处理遗传性和遗传协方差/相关性的小节。
虽然这里没有明确显示,但是像区组效应这样的环境因素可以很容易地作为协变量包含在每个性状的QTL模型中(2-4)。 在这些模型中,环境因素可能对不同的曲线特征产生不同的影响。 或者,在QTL分析之前,可以尝试首先调整(恒定的或时间依赖的)环境因子的表型数据。 这意味着初步分析的残差被作为连续QTL分析的表型。 但是,这种调整很可能只能预先校正对截距()有影响。 一般来说,这种预矫正实践可能存在许多问题(参见Martinez等,2005),这些问题对于时间依赖的协变量可能更严重。
分层模型
上面给出的所有模型(1-4)同时被认为是更大的分层模型的一部分。 我们将表型和标记数据分别表示为Y和X. 我们将模型参数联合表示为
请注意,此向量包括模型中所需的所有未知参数(1-4)。 后验分布与数据和参数的联合分布成比例。 该联合分布可以描述为似然和先前的乘积,其中似然(具有预选值)是
先验是
这里,符号指的是中出现在前的所有项。例如前面那一项是。先验的功能形式是模型(2–4)的残差的正态密度,均值为0,方差。对于截距,
假设中的每一个先验是Inverse-Gamma (0.001, 0.001)。每一个,和是。Inverse-Gamma分布支持正范围内的值,并且上述正态分布相当平坦。 因此,它们提供了适用于许多数据集的实用先验,而没有标准化。先验,和在下一节中介绍。
网友评论