Weng2017 GLMM

作者: 董八七 | 来源:发表于2019-04-02 17:36 被阅读2次

Weng2017 GLMM
线性混合效应模型（GLMM）
Isik2011 GLMM
mk购物清单
广义线性混合模型（GLMM）
#asreml GLMM 遗传力计算
广义线性模型GLM和广义线性混合模型GLMM
R语言机器学习与临床预测模型58--广义线性混合模型(GLMM)

Weng Y, Ford R, Tong Z, Krasowski M (2017) Genetic Parameters for Bole Straightness and Branch Angle in Jack Pine Estimated Using Linear and Generalized Linear Mixed Models. For Sci 63:111–117. doi: 10.5849/forsci.16-039

摘要

理想的干形和分枝角是杰克松树改良的重要目标。在这项研究中，我们计算了加拿大安大略省三个地点重复的子代试验中的干直度（五个类别的序数响应）和分支角度（二元响应）的遗传参数。使用三种分析模型：序数，多阈值广义线性混合模型（GLMM）、二元GLMM和常规线性混合模型（LMM）。结果显示：（1）模型间参数估计值的差异很小，尽管LMM的值始终低于其他两个值; （2）11年生树木的干直度的遗传控制呈中等强度（个体遗传力0.19）; （3）8岁时，分枝角度的遗传控制在一个位点具有中等强度（个体遗传力为0.16），但在其他两个位点没有观察到家系分化【就是遗传力低】; （4）分枝角度与树干直线度之间显着正遗传相关，但在干直度和体积之间存在显着负相关，而在分枝角度和体积之间可忽略不计。我们的研究结果表明，将树形质量目标纳入当前的松树育种计划可以获得合理的收益。
关键词：树木改良，育种价值，遗传力，遗传相关性

前言

杰克松（Pinus banksiana Lamb）约占加拿大安大略省树木种植总量的12％（Watkins 2011）。鉴于其生态和商业重要性，安大略省在20世纪80年代初开始实施杰克松遗传选择计划，遵循从自然林分中选择加树以及建立家庭试验和种子种子园的策略。该计划的主要目标是通过遗传选择促进经济回报以实现快速增长（Joyce和Nitschke，1993，Mullin等2011）。然而，已知杰克松会产生不如意的树干质量，特别是在不良地点和低密度林分中（Belley等人2013）。
杰克松的干质量主要表现在它的直线性和枝条的发育。弯曲和扭曲的树木产生压缩木材和不规则的纹理，两者都降低了商业上有用的部分的价值和体积。枝条着生对干材质量有重大影响。以宽角连接到树干上的树枝比尖角树枝更快地被遮挡和脱落，这导致树脂上更多的结。调节树木密度的造林技术可有效地改善杰克松松树干直度和分枝角度（Magnussen和Yeatman 1987a，1987b），但这些活动成本高，可能对生长产生负面影响（高密度会降低单株树木的生长）。
在许多树种中，干质量特征具有很强的可遗传性（Zobel和Talbert 1984）。文献表明，杰克松育种可能为改善树干直度和枝角创造机会。对于安大略群体（Magnussen 1990，Morris等1992）以及加拿大新不伦瑞克种群（Park等1989，Adams和Morgenstern 1991，Weng等2015），杰克松松干直度的加性遗传控制是中等的。只有少数研究调查了松针中枝角特征的遗传，但它们的结果对于遗传选择和育种是令人鼓舞的（Magnussen和Yeatman，1987b，Adams和Morgenstern，1991）。干直度和生长性状之间的遗传相关性是负的，但它们的大小变化很大（Park等1989，Adams和Morgenstern 1991，Morris等1992）。关于分支角度和生长速率之间关系的信息仍然非常有限; Adams和Morgenstern（1991）发现这种关系并不显着。虽然这些发现对于了解杰克松遗传学很有价值，但在广泛应用它们来引导杰克松育种计划时应该谨慎。首先，需要确认从研究一个种群到其他种群获得的估计数的适用性。其次，大多数引用的发现依赖于在年轻时（3岁~3岁）收集的数据，而加拿大的松树的选择年龄通常约为10 - 2年。最后，来自早期研究的数据仅从一个站点收集或代表少数遗传条目。需要大量数据来获得可靠和稳定的遗传参数估计，以便在树木改良计划中应用。
通常主观评估诸如树干直线度和分支角度的特征并将其记录为序数多项数据（即，用于表示最直线的5类和最弯曲的5条的直线度的五类系统）。大多数早期研究使用线性混合模型（LMM）来分析这类数据，假设高斯分布（Gwaze等1997），这很少是站得住脚的。一些研究人员已经转换非正态数据以实现方差的正态性和同质性，然后使用LMM分析转化的数据（Makouanzi等2014）。尽管这种方法可能是合适的，但使用原始数据分布似乎更为恰当pertinent（Bolker等2008，Makouanzi等2014）。数据转换可能会失败;即使它们成功，它们也会限制推理范围并降低非专业人员分析的可接受性。广义线性混合模型（GLMM）的最新发展通过正确地解释表型的基本多项分布和序数性质，提供了LMM的有吸引力的替代方案（Gilmour等人2009，Stroup 2013）。最近，Wilson等人（2012年，2013年）使用从动物育种计划收集的数据报告了这样的努力。他们的结果支持使用GLMM分析遗传分类，多个名义数据。在森林遗传学研究中，Cappa和Varona（2013）以及Mora和Serra（2014）使用多阈值混合模型来分析树干质量的序数，分类数据。两项研究均采用贝叶斯方法进行吉布斯采样，而不是限制最大似然法（REML）。最近一些关于森林遗传学的研究将序数多项数据转换为二元（即可接受/不可接受）数据，然后使用基于二项分布的GLMM对它们进行分析（Weng等，2015）。这种转换使分析更简单，不需要假设比例odds。但是，将所有分数合并为两个二分类可能会导致信息丢失。使用REML方法在森林遗传学中分析二元数据的GLMM的应用已经变得普遍（De Silva等2014，Xiong等2014，Weng等2015）。 Makouanzi等（2014）将二元GLMM与LMMs进行了比较，分析了桉树的营养繁殖能力。总体而言，这些分析方法在估算遗传参数方面的比较（特别是在使用REML方法时）在森林遗传学文献中仍然很少。
基于从安大略省三个后代测试站点收集的大量数据集，本研究的目标如下：使用基于GLMM的多阈值序数分析估算树干直线度和树枝角度的遗传参数及其与树木体积增长的关系办法;并将用该方法估计的遗传参数与用LMM估计的遗传参数和基于二进制数据分布的GLMM进行比较。我们预计这些信息将有助于森林遗传数据分析，一般来说，以及安大略省和其他地方的杰克松育种计划，其中杰克松是主要的商业森林物种。

材料和方法

开放授粉的半同胞家庭测试

1984年，在安大略省东北部的三个地点建立了Aidie Creek繁殖区的开放授粉家庭测试系列：靠近Flavelle，Londonderry和Macklem乡镇。在试验中总共种植了397个来自野生林中加树的种子的开放授粉家庭。这些家庭被随机分配到四组（A，B，C和D），每组有100个家庭。在每个站点，使用具有四个块的随机完整块设计。在一个区块内，四组被随机分配，并且在一组中，家庭被随机种植为5树行小区。
所有树木都是在1990年（8岁）和1993年（11岁）测量的。在1990年的测量中，记录了树高，dbh，bole直度（BST）和分支角（BA）。在1993年的测量中，记录了除BA以外的相同特征。根据Honer等（1983）计算单个树体积。 Weng（2001）报道了两个年龄段生长性状的遗传参数和育种值的估计值。树BST记录在5个序数类别中。 BA记录在最接近乳房高度的螺旋的分支的4个序数类别中的一个中。然而，事实证明只需要两个类别，因此BA数据被转换为二进制：0=45°到主干，1 90°到主干。

干直度数据的分析模型

使用统计软件包ASReml（Gilmour等人2009）在三种方法中分析BST的数据。鉴于其序数、多阈值性质，使用以下GLMM（以下称为“序数GLMM”）对8岁或11岁的BST进行建模：
$\log \left[\frac{P(Y \leq k)}{P(Y>k)}\right]=\gamma_{k}+\mathbf{X b}+\mathbf{Z} \mu+\mathbf{e}$
其中 $k =1,2,...,4$ 表示序数标度的边界（即，1表示类别1和2之间的边界）， $Y$ 是BST得分向量。对于每个切点（边界），存在单独的“截距”（ $\gamma_{k}$ ）以反映累积赔率，其约束为（ $\gamma_{1}<\gamma_{2}< ... <\gamma_{4}$ ）。 $b$ 是固定效应的向量（例如，site内的set，site和blk）， $\mu$ 是随机效应的向量[例如，fam（set内），fam（set内） $\times$ set交互和fam（set内）blk）相互作用]。假设单独的随机效应 $\mu$ 是不相关的。 X是对应于b的固定效应的关联矩阵，Z是对应于随机效应的关联矩阵。 $e$ 是随机残差的向量。 $\mathbf{X b}+\mathbf{Z} \mu$ 的变化将边界移动到一起，使得边界之间的距离保持不变（也称为比例赔率）。例如， $\mathbf{X b}+\mathbf{Z} \mu$ 的正值意味着将边界向右移动，导致类别1的概率增加。还使用相同模型进行了单点分析，但没有site 因素及其与fam的交互。我们没有使用单株模型，因为当使用单株模型（ $u$ 是单个树的育种值的向量）时，ASReml或SAS中的GLMM过程可能提供严重偏差的结果，而家系模型（ $u$ 是家庭育种值的向量）可以提供更可靠的预测。
在树选择程序中，通常使用截断选择来选择诸如BST的分类特征。这证明了数据转换可以将多项式类别减少为二进制类别。我们假设不会选择任何BST类别大于3的树，并且相应地将BST数据转换为二进制（0-1）数据（切割点为1-3/4和5）：0表示得分>3否则为1。鉴于二元性质，BST的二项数据使用以下带有logit链接函数（二项GLMM）的GLMM模型建模：
$Y=\eta+\mathbf{e}=\mathbf{X b}+\mathbf{Z} \mu+\mathbf{e}$
其中 $Y$ 是BST二元观测的向量， $\eta$ 是线性预测子（ $\eta=\mathbf{X b}+\mathbf{Z} \mu$ ，通过逆连接函数表示）。模型的链接函数是 $\eta=P(Y = 1)/[1-P(Y = 1)]$ ，其将线性预测子 $\eta$ 尺度与观察 $[P(Y=1)= E(y)]$ 尺度相关联。所有其他向量与模型1中解释的相同。
为了比较，我们还使用以下LMM对1到5个类别的BST数据建模，忽略了数据的序数性质：
$Y=\mathbf{e}=\mathbf{X b}+\mathbf{Z} \mu+\mathbf{e}$
其中 $Y$ 是观测的向量，所有其他向量与模型1中的相同。请注意，空间协方差结构未包含在模型中，因为没有可用的行和列数据，并且块是不连续的。
每个模型分析提供了估计的育种值（EBV），其使用最佳线性无偏预测（BLUP）方法预测。对LMM的EBV的解释很简单，但序数或二元GLMM的解释比较困难，因为它们是以logit尺度计算的。因此，通过应用连接函数的逆，将序数和二项GLMM的EBV变为概率。具体而言，分别使用等式4和5计算具有BST<=3（序数GLMM）或BST= 1（二项GLMM）的fam的概率：
$\begin{array}{c}{\widehat{p}(Y \leq 3)=\exp \left(\gamma_{3}+\mathrm{EBV}\right) /\left[1+\exp \left(\gamma_{3}+\mathrm{EBV}\right)\right]} \\ {\widehat{p}(Y=1)=\exp (\mathrm{EBV}) /[1+\exp (\mathrm{EBV})]}\end{array}$
高概率值表示具有直的BST或具有可接受的直干的高概率。由于序数GLMM相对于LMM和二元GLMM的统计优势，我们将有序GLMM视为用于比较的“标准模型”。

分支角数据的分析模型

Londonderry和Macklem点上没有BA平（90°）或更宽（>90°）的树木。只有来自Flavelle点的数据用于数量遗传分析。数据在去除因子site及其与发明、的相互作用后使用模型2进行分析。使用公式5计算具有平BA的概率，具有高概率值表示具有平坦角度的高概率。

计算遗传参数

假设开放授粉的家系（在集合内）方差（ $\sigma_{F}^{2}$ ）占总加性遗传变异的四分之一，则地点组合分析的个体树遗传力（ $h_{i}^{2}$ ）和家庭平均遗传力（ $h_{f}^{2}$ ）计算为：
$h_{i}^{2}=4 \sigma_{F}^{2} /\left(\sigma_{F}^{2}+\sigma_{S F}^{2}+\sigma_{B F}^{2}+\sigma_{e}^{2}\right)$
$h_{f}^{2}=\sigma_{F}^{2} /\left(\sigma_{F}^{2}+\sigma_{S F}^{2} / k_{1}+\sigma_{B F}^{2} / k_{2}+\sigma_{e}^{2} / k_{3}\right)$
如“拟合统计”（分散参数）所示，过度离散问题不是问题; 因此，对于序数或二元GLMM， $\sigma_{e}^{2}$ 固定为3.29（Gilmour等人2009）。各个站点的遗传力类似地计算。使用标准泰勒级数近似计算方差和遗传力的标准误差（Gilmour等人，2009年）。
由于使用的软件无法在假设有序数据的情况下运行双性模型【应该是可以的】，因此我们计算了BST（序数GLMM），BA和11年的体积（从Weng（2001）获得）的EBV之间的Pearson相关性作为指标相应的A型遗传相关性。 B型遗传相关性（rB）是跨站点家庭等级变化的指标，计算如下
在两种选择方案下计算遗传增益：1使用BST或BA的fam概率直接选择和2独立剔除选择以在保持BST或BA的平均水平的同时最大化体积增加。对于这两种方案，我们的目标是选择62个家庭（对应于20％的选择强度）。 遗传增益简单地计算为所选种群的平均育种值或概率，然后表示为种群平均值的百分比（White和Hodge 1989）。

Weng2017 GLMM
Weng Y, Ford R, Tong Z, Krasowski M (2017) Genetic Parame...
线性混合效应模型（GLMM）
这两天做项目分析用到了GLMM模型，由于不明白GLMM和我之前学习的线性回归模型有啥区别，就差了点相关资料，今天汇...
Isik2011 GLMM
Isik F (2011) Generalized Linear Mixed Models An Introduc...
mk购物清单
1.30H7GLMM2O-BLACK 黑色 2.35H7GEOS5L 黑色 3.32F6TAVC2O-ballet...
广义线性混合模型（GLMM）
知识背景广义线性混合模型可以看做是广义线性模型（GLM）以及线性混合模型(LMM)的扩展，为了更好地理解GLMM...
#asreml GLMM 遗传力计算
View topic - Difficulty with multinomial model | Forum | ...
广义线性模型GLM和广义线性混合模型GLMM
GLM 一般是指 generalized linear model ，也就是广义线性模型；而非 general l...
R语言机器学习与临床预测模型58--广义线性混合模型(GLMM)
本内容为【科研私家菜】R语言机器学习与临床预测模型系列课程你想要的R语言学习资料都在这里，快来收藏关注【...

Weng2017 GLMM

摘要

前言

材料和方法

开放授粉的半同胞家庭测试

干直度数据的分析模型

分支角数据的分析模型

计算遗传参数

相关文章

Weng2017 GLMM

线性混合效应模型（GLMM）

Isik2011 GLMM

mk购物清单

广义线性混合模型（GLMM）

#asreml GLMM 遗传力计算

广义线性模型GLM和广义线性混合模型GLMM

R语言机器学习与临床预测模型58--广义线性混合模型(GLMM)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

遗传改良（育种）