1 构建适合性状的好模型

所有研究的先决条件，但是其也应尽可能的简单
依次有：单性状模型，多性状模型，随机回归模型（RRM，纵向数据，如产奶量和体重）
还有：UPG（未知父母组）作为随机效应，
但是：
在许多分析中，使用超过 2-3 个历史代不会影响最年轻一代（候选者）的 GEBV，甚至可能会改善它（Lourenco 等，2014）。这是由于多种原因造成的，包括 1) 基因组预测的衰减，2) 性状随时间的变化，3) 固定效应随时间的不完善建模。因此，限制计算的最简单方法之一是截断表型和谱系。截断数据还限制甚至消除了对 UPG 的需求。
可以增加残差异质来完善模型。

2 选择合适算法来估计遗传方差组分（VCE）

（1）REML
传统的REML依靠稀疏矩阵完成，计算量大约是动物数量的二次方和性状数量的立方。
但是当性状数量太大或产生的协方差矩阵接近singularity时，可能会不收敛。

EM-REML 更稳定，但速度很慢，并且对 SE 没有很好的估计。当缺失信息少时，EM-REML 速度更快。如果起始参数很小，EM_REML 会被 RRM “卡住”。

AI-REML 对于简单的模型速度更快，但对于很复杂的模型，容易不能进行。

REML的特殊版本（eg: cannonical transformation）可以非常稳定且对于具有大量性状的分析要求内存小，但会增加模型的限制。

（2）使用Gibbs sampling 完成Bayesian分析
通过吉布斯采样 (BAGS) 的贝叶斯方法可能会变慢或变快，具体取决于优化（抽样数）。通常所需样本的数量随着模型复杂度和参数数量的增加而增加。例如，reduced动物模型可能需要比常规动物模型少 10 倍的样本。并且分析 BAGS 的输出是必要的。

优化的 BAGS（例如 gibbs1f90 和更高版本）对非正定矩阵具有抵抗力，并且如果每个性状的模型差别不大，则可以非常快地处理大量性状。复杂模型（例如阈值）通过 BAGS 比通过 REML 更容易实现。
（3）PCG法
此方法适用于国家数据的分析。因为模型更加复杂和数据更加多（千万级别），一般算法需要的运行内存太大，无法完成。就可以使用基于数据的迭代法，
通过“matrix free”或“iteration on data”方法计算解决方案，其中每轮迭代读取数据并重新创建混合模型方程的系数。这些系数不会被存储，而是立即用于创建迭代方法使用的数量。一种特别有效但易于实现的迭代方法是预条件共轭梯度（PCG, Tsuruta 等，2001）。该方法可以以任意顺序使用混合模型方程的系数。

3 选择合适算法来预测育种值（EBV or GEBV）

现在育种中普遍使用ssGBLUP，这样可以一步实现GEBV的估计，否则需要整合EBV和DGV，这两者预测都有误差，还需要选择合适的weight，这同样会增加误差。

ssGBLUP使用H矩阵:

image.png

ssGBLUP受到SNP频率P的影响

4 找出能一起作出上述2和3步骤的软件

现在有越来越多的可以使用，自己常用BLUPF90家族的软件。
其他的软件DMU，ASREML等也应用较广。
还有以下R包：更详细的请查看以下链接介绍：
https://www.cnblogs.com/jessepeng/p/14395909.html

3 5 验证方法
（1）具有很多记录的GEBV的可靠性
在具有高准确的male和大量后代的种群中，验证包括部分和完整的数据比较。部分数据集排除了最年轻male的后代。与用部分数据获得的 GEBV 或 EBV 和用完整数据获得的male的 EBV 或 DYD 进行比较。当子代数量较多时，比较涉及PA+DGV-PP和PC。 GEBV 的分解表明这种方法何时合适。
（2）预测能力
当年轻动物的具有记录时，其真实可靠性为：corr(gebv, y-Xb)/h, gebv是没有表型时预测得到，h是遗传力的开方，但是当遗传力非常低时，可以使用corr(gebv, y-Xb)代替准确性（PS在小群体可能值非常低或者负值）。
（3）X-fold 交叉验证
当测基因型动物少时，可以使用交叉验证。但是当测基因型小群体的个体之间相关性很高时，会造成准确性估计过高，所以需要注意交叉分组