Chen2018开发了一个带界面的GWAS和GS操作软件

作者: 董八七 | 来源:发表于2018-11-09 17:57 被阅读10次

Chen2018开发了一个带界面的GWAS和GS操作软件
PLINK+TASSEL做GWAS+Post-GWAS分析
GCTA计算亲缘关系矩阵（两种不同方法）
重测序分析（15）GWAS分析实操（1）gwas_emmax
hapmap 格式转化为Plink格式方法
GWAS GS学习笔记_20|关联权重矩阵(AWM):一种基于网
Hayes2010 gwas和gs的综述
GWAS分析- P值计算过程 (七)
GWAS概念：LD连锁不平衡，LD block
重复一篇文献的GWAS（二）：用GEMMA跑GWAS

Chen CJ, Zhang Z. iPat: Intelligent Prediction and Association Tool for Genomic Research. Bioinformatics, 2018, (February): 10–13. DOI: 10.1093/bioinformatics/bty015.

摘要

基因组研究的最终目标是有效预测基因型的表型，以便医学管理可以改善人类健康，分子育种可以增加农业生产。基因组预测或选择（GS）对全基因组关联研究（GWAS）起辅助作用，GWAS是鉴定表型基因的主要方法。遗憾的是，大多数计算工具无法对GWAS和GS执行数据分析。此外，这些工具中的大多数都是通过命令行界面（CLI）执行的，这需要编程技巧。非程序员很难有效地使用它们，因为学习曲线陡峭，数据格式零容忍，输入关键字和参数时出错。为了解决这些问题，本研究开发了一个软件包，名为智能预测和关联工具（iPat），具有用户友好的图形用户界面。使用iPat，可以使用指点设备执行GWAS或GS，只需拖动和/或单击图形元素即可指定输入数据文件，选择输入参数并选择分析模型。用户可用的模型包括在第三方CLI软件包中实现的模型，如GAPIT，PLINK，FarmCPU，BLINK，rrBLUP和BGLR。用户可以选择任何数据格式并使用任何这些包进行分析。对指定的输入数据和选定的包自动执行文件转换。实施GWAS辅助的基因组预测方法以使用任何GWAS方法（例如FarmCPU）进行基因组预测。 iPat是用Java编写的，适用于多种操作系统，包括Windows，Mac和Linux。可用性和实现：iPat可执行文件，用户手册，教程和示例数据集可从http://zzlab.net/iPat免费获取。联系方式：zhiwu.zhang@wsu.edu

1简介

全基因组关联研究（GWAS）已成为解剖复杂性状的主要方法。为了结合种群结构，在PLINK（Purcell等人，2007）中实施了一般线性模型以减少虚假关联。已经开发出混合线性模型以结合个体之间的隐秘关系以进一步减少虚假关联。已经相应地开发了软件包以进行分析，包括TASSEL（Bradbury等人，2007），EMMA（Kang等人，2008），GAPIT（Lipka等人，2012; Tang等人，2016）和FarmCPU（Liu等人）。，2016）。
其他最近开发的分析方法也使基因组研究有助于改善人类疾病风险管理和植物和动物的分子育种 - 这是基因组预测的最终目标，包括rrBLUP（Endelman，2011）和BGLR（Pe磖ez和De Los Campos，2014）。 rrBLUP实现岭回归和基因组BLUP（gBLUP），BGLR实现贝叶斯方法，如贝叶斯A，B，CPi和LASSO。一些基因组预测方法可用于GWAS，例如，Bayes A，B和Cpi。作为回报，GWAS结果还可以增强基因组预测（Spindel等，2016）。
多个可用的软件包提供了增强数据分析的潜力，但也为用户带来了挑战。大多数软件包只使用命令行界面（CLI），这对于非程序员来说具有非常陡峭的学习曲线。此外，由于输入数据的格式要求不一致，用户在从一个包转移到另一个包时必须付出很大的努力。用户必须花时间相应地重新格式化他们的数据。因此，基于用户友好的图形用户界面（GUI）的软件包可以访问多个CLI包，使用任何类型的输入文件格式，并且执行GWAS和基因组预测或选择是非常需要的。
本研究的目的是开发一个具有以下功能的软件包：（1）执行GWAS和基因组预测，包括GWAS辅助的基因组预测; （2）提供友好的GUI以减少用户学习时间;（3）只需要一种输入数据格式即可使用任何合并的方法进行任何分析。

2 GWAS辅助基因组预测

默认情况下，智能预测和关联工具（iPat）使用任何实现的CLI包在GWAS之后进行基因组预测。基因组预测由gBLUP进行，相关基因座作为固定效应拟合在以下模型中：
$y=W\gamma+X\beta+Zu+e$
（1）

其中y是表型向量; $\gamma$ 和 $\beta$ 代表未知的固定效应， $\gamma$ 作为遗传因素（例如种群结构和相关的遗传基因座）， $\beta$ 作为不可遗传的因素（例如环境处理）; u是随即的基因组预测的向量，其大小为n（个体数量），用于未知的随机多基因效应。
这些随机效应遵循均值为零且协方差矩阵为 $G = 2K\sigma_a^2$ 的分布，其中K是具有元素kij（i，j=1,2，...，n）的亲属关系，表示个体i和j和 $\sigma_a^2$ 是未知的遗传方差。 W，X和Z分别是c，b和u的关联矩阵。 e是随机残差效应的向量，其通常以零均值和协方差 $R = I\sigma_e^2$ 分布，其中I是单位矩阵， $\sigma_e^2$ 是未知残差方差。个体的预测遗传价值（GM）通过以下等式计算：
$GM=W\hat{\gamma}+Z\hat{u}$
（2）

其中 $\hat{\gamma}$ 和 $hat{u}$ 分别是 $\gamma$ 和u的估计和预测。
【这一段很重要，要慢慢消化】相关基因座被定义为具有高于Bonferroni阈值的P值的遗传标记。还针过滤掉处于连锁不平衡（LD）的标记相关基因座。按照最强的关联标记进行排序。除去顶部标记具有50％（R2）或更高的LD的任何其他标记。然后，选择第二个最强的相关标记作为顶部标记，并重复相同的过程直到不能去除标记。相关标记和其他固定效应的总和必须小于个体数的平方根。如果不是，则在不满足该要求之前移除不太重要的标记。