Wen2017 FASTmrEMMA

作者: 董八七 | 来源:发表于2018-11-12 12:53 被阅读1次

Wen2017 FASTmrEMMA

Wen Y-J, Zhang H, Ni Y-L, et al. Methodological implementation of mixed linear models in multi-locus genome-wide association studies. Briefings in Bioinformatics, 2017, 169(2): 2267–2275. DOI: 10.1093/bib/bbw145.

多位点基因组全基因组关联研究中混合线性模型的方法实现

摘要

混合线性模型已被广泛用于全基因组关联研究（GWAS），但其在多基因座GWAS分析中的应用尚未被探索和评估。在这里，我们为GWAS实现了快速多基因座随机SNP效应EMMA（FASTmrEMMA）模型。该模型建立在随机单核苷酸多态性（SNP）效应和新算法的基础上。该算法对多基因矩阵K的协方差矩阵和环境噪声进行白化，并将非零特征值的数量指定为1。该模型首先选择具有0.005个P值的所有推定的数量性状核苷酸（QTN），然后将它们包括在用于真实QTN检测的多基因座模型中。由于具有多位点特征，Bonferroni校正被较不严格的选择标准所取代。模拟和实际数据分析的结果表明，FASTmrEMMA在QTN检测和模型拟合方面更强大，在QTN效应估计中具有较少的偏差，并且比现有的单基因和多基因座方法（例如经验贝叶斯）需要更少的运行时间，在渐进排他性关系（SUPER），高效混合模型关联（EMMA），压缩MLM（CMLM）和丰富CMLM（ECMLM）下的混合线性模型的解决。 FASTmrEMMA为多基因座GWAS提供了替代方案。
关键词：全基因组关联研究;混合线性模型;多位点模型;随机效应

介绍

全基因组关联研究（GWAS）已被广泛用于人类，动物和植物遗传学中数量性状的遗传解剖，特别是与基因组测序技术的输出相结合。最常用的GWAS方法是混合线性模型（MLM）方法[1,2]，因为它证明了从许多小遗传效应（多基因背景）纠正inflation和控制种群分层偏差的有效性[3-7]。自Yu等[2]的MLM发表以来，已经提出了许多基于MLM的方法。然而，它们中的大多数通过一次测试一个标记包括一维基因组扫描，其涉及对显着性测试的阈值的多次测试校正。广泛使用的Bonferroni校正通常过于保守，无法检测数量性状的许多重要位点。
大多数数量性状由一些具有大效应的基因和许多具有轻微影响的多基因控制。然而，GWAS的当前一维基因组扫描方法与这些性状的真实遗传模型不匹配。为了克服这个问题，已经开发了多位点方法;例如，贝叶斯最小绝对收缩和选择算子（LASSO）[8]，自适应混合LASSO [9]，惩罚Logistic回归[10？1]，Elastic-Net [12]，经验贝叶斯（E-BAYES）[13]和EBAYES LASSO [14]。如果标记的数量是样本大小的几倍，则所有标记效果可以包括在单个模型中并以无偏的方式估计。但是，如果标记的数量比样本大小大许多倍，则这些收缩方法将失败。在这种情况下，我们应该考虑如何减少多基因座遗传模型中标记效应的数量。例如，Zhou等[15]开发了贝叶斯稀疏线性混合模型，Moser等[16]提出了贝叶斯混合模型。在这些模型中，考虑了混合物分布中的两到四个共同组分，并且仅估计了几个方差分量。虽然在几轮吉布斯采样后最终考虑了遗传模型中约500种效应，但计算时间成为这些贝叶斯方法的主要关注点。最近，Segura等[17]和Wang等[7]提出了多基因座MLM方法。然而，需要进一步改进快速算法。
Zhang等人的[1] MLM方法将数量性状核苷酸（QTN）效应视为随机的，其中需要估计由于QTN，多基因和残留误差引起的三个组分方差。如果效果的数量很大，则此计算需要很长时间。为了减少计算时间并增加QTN检测的功效，已经提出了具有先前确定的群体参数（P3D）算法[18]和丰富的CMLM（ECMLM）[19]的压缩MLM（CMLM）。另一方面，Kang等[3]提出了一种有效的混合模型关联（EMMA），其他作者提出了替代方案，如EMMA eXpedited（EMMAX）[20]，FaST-LMM [21]，FaST-LMM-Select [22]，全基因组EMMA [4]和全基因组快速关联使用混合模型和回归-Gamma（GRAMMAR-Gamma）[23]。最近，基于FaST-LMM开发了渐进排他性关系（SUPER）[24]下的混合线性模型的解决方案。在上述快速方法中，SNP效应被视为固定的。 Goddard等[25]指出，与固定模型相比，随机标记模型具有几个优点[7,26,27]。例如，随机模型方法将估计的SNP效应收缩至零。然而，Goddard等[25]没有提供有效的计算算法来估计标记效应。
在本文中，我们描述了一种新方法，通过为三个组分方差构建快速和新的矩阵变换，可以快速扫描整个基因组中的每个随机效应标记。然后，将具有0.005个P值的所有推定的QTN置于一个多基因座遗传模型中，并且通过EM经验贝叶斯（EMEB）[28]估计这些QTN效应用于真正的QTN鉴定。这种新方法称为快速多位点随机SNP效应EMMA（FASTmrEMMA），通过分析拟南芥的实际数据[29]和一系列模拟研究进行验证，并与其他方法比较，如E-BAYES （多基因座模型）[30]，SUPER，EMMA，ECMLM和CMLM（单基因座模型）。

Case	FASTmrEMMA	E-BAYES	EMMA	CMLM	ECMLM	SUPER
Model	Multi-locus model	Multi-locus model	Single-locus model	Single-locus model	Single-locus model	Single-locus model
QTN effect	Random	Random	Fixed	Fixed	Fixed	Fixed
Population structure control	Yes	No	Yes	Yes	Yes	Yes
Number of variance components	Three	No. of effects	Two	Two	Two	Two
Polygenic-to-residual variance ratio	Fixed	NA	NA	Fixed	Fixed	NA
Significant critical value	LOD (logarithm of odds)=3	P-value=0.05	P-value=0.05/p, where p is no. of markers P-value=0.05/p	P-value=0.05/p	P-value=0.05/p
Transformation matrix and performances	$Q_1 \Lambda_r^{-\frac{1}{2}} Q_1^T$ where $(Q_1 \Lambda_r^{\frac{1}{2}} Q_1^T)Q_1 \Lambda_r^{\frac{1}{2}} Q_1^T = \hat{\lambda_gZKZ^T+I_n}$	Shrinkage is selective. Large effects subject to virtually no shrinkage while small effects are shrunken to zero.	$U_R^T$ where $SHS=U_Rdiag(\xi_1+\delta, \dots, \xi_n+\delta)U_R^T$$H=ZKZ^T+\delta I$ and $S=I-X(X^TX)^{-1}X^T$ One-dimensional optimization by deriving the likelihood as a function of QTN-to-residual variance ratio.	Kinship among individuals is replaced by the kinship among groups.Fit the groups as the random effect, and estimates population parameters only once and then fixes them to test genetic markers.	Kinship among individuals is replaced by the kinship among groups.Chooses the best combination between kinship algorithms and grouping algorithms.	Dramatically reduces the number of markers used to define individual relationships, and uses them in FaST-LMM.
Running time	Fast	Depend on the number of effects.	Slow	Fast	Fast	Moderate