GWAS分析基本流程及分析思路

作者: ChrisJO | 来源:发表于2022-01-26 10:45 被阅读0次

GWAS分析基本流程及分析思路
2020-02-17 GWAS进阶备选学习资料（GWAS tut
GWAS分析-P值和beta值的爱恨相杀 (六)
遗传背景分析（群体结构10个样品以上）
常用GWAS统计方法和模型简介
GWAS全基因组关联分析流程（BWA+samtools+gatk
用R语言做GWAS分析
工欲善其事必先利其器之OkHttp解读
生物信息学视频课程
群体进化-GWAS分析

GWAS分析基本流程及分析思路

数据预处理（DNA genotyping、Quality control、Imputation）

QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成

2. 表型数据统计分析

逻辑回归（表型数据为二元）

线性回归（表型数据为连续性变量）

表型数据正态分析（如果不是正态分布，需转换处理为正态分布）

表型数据均值、中值、最大值、最小值

影响因子对表型的影响分析

3.画曼哈顿图（GWAS）和QQ plot图

(一)、准备plink文件

（1）、准备PED文件

PED文件有六列，六列内容如下：Family IDIndividual IDPaternal IDMaternal IDSex (1=male; 2=female; other=unknown)PhenotypePED文件是空格（空格或制表符）分隔的文件。

（2）、准备MAP文件

MAP文件有四列，四列内容如下：chromosome (1-22, X, Y or 0 if unplaced)rs# or snp identifierGenetic distance (morgans)Base-pair position (bp units)

（3）、生成bed、fam、bim、文件

在plink中输入命令：plink --file mydata --out mydata --make-bedplink指的是plink软件，如果软件安装在某个指定的路径的话，前面还要加上路径，比如安装在路径为/your/pathway/的文件夹下，则命令应该为“/your/pathway/plink --file mydata --out mydata --make-bed”mydata指的是1和2生成的PED和MAP文件名，不需要写.ped和.map后缀

（二）、准备表型文件（Alternate phenotype files）

一般表型文件为txt格式，表型文件有三列，分别为：Family IDIndividual IDPhenotype假如有多种表型，第一列和第二列还是Family ID、Individual ID，第三列及以后的每列都是表型，例如以下：Family IDIndividual IDPhenotype APhenotype BPhenotype CPhenotype DPhenotype E……

（三）、准备协变量文件（Covariate files）

协变量文件同表型文件类似，第一列和第二列是Family ID、Individual ID，第三列及以后的每列都是协变量Family IDIndividual IDCovariate ACovariate BCovariate CCovariate DCovariate E……

（四）、plink进行表型和基因型以及协变量的关联分析

命令如下：plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb生成的文件为mydata.assoc.linear注：“mydata”mydata文件不需要后缀，“--mpheno 1”指的是表型文件的第三列（即第一个表型）“--covar-number 1,2,3”指的是协变量文件的第三列、第四列、第五列（即第一个、第二个、第三个协变量）“--linear”指的是用的连续型线性回归，如果表型为二项式（即0、1）类型，则用“--logistic”

（五）、画曼哈顿图(GWAS)图

安装R语言的CpGassoc包，其中的manhattan()，即可画曼哈顿图

（六）、画QQ plot图

R语言中的 qqnorm() 和 qqplot() 包提供了QQ plot的画法，具体自行搜索用法；

4. GWAS进阶分析

群体分层分析，Population Stratification

如果研究的群体是混合群体，遗传异质性高，存在群体分层现象，易造成实验的误差或者检测出假阳性位点。因此检测群体分层对效应值的影响是非常必要的。

不同群体重复验证分析，Replication

Regional association plots

用LocusZoom(http://csg.sph.umich.edu/locuszoom/)画出来的

相似条件分析，Approximate conditional analysis

相似条件分析的目的是，去掉lead SNPs后，再跑一次GWAS关联分析，以此找到更多有强关联的信号。

连锁不平衡得分评估表型间遗传相关性，Linkage-disequilibrium score regression

遗传相关性 genetic correlation，这是指在杂种群体表型间的相关性中，由基因型所产生的相关性。遗传相关是仅由遗传原因引起的相关。

基因富集分析，Gene setenrichment analysis

从文献，GTEX、 GEUVADIS等据数据找到与 Lead SNPs 关系很大的基因、变异等，以及与 Lead SNPs 连锁不平衡分析r2大于0.8的SNP，则这些SNP的基因可以作为候选基因。汇总了所有的候选基因后，在GOTERM、KEGG、Panther等数据库分析这些候选基因的富集分析。

层次聚类分析，Hierarchicalclustering

层次聚类分析的作用是更进一步看出研究的表型相关的 lead SNPs与其他表型的相关性；

蛋白质-蛋白质互作网络分析，Protein–proteininteraction network analyses

蛋白质互作网络的目的是看哪些蛋白共同调控了表型

Point ofcontact analyses

Point of contact analyses的作用是哪些位点导致了表型间有相关性

参考文献： Horikoshi, Momoko, et al. "Genome-wide associations for birth weight and correlations with adult disease." Nature 538.7624 (2016): 248. Okbay A, Beauchamp J P, Fontana M A, et al. Genome-wide association study identifies 74 loci associated with educational attainment[J]. Nature, 2016, 533(7604): 539.

GWAS分析基本流程及分析思路
GWAS分析基本流程及分析思路[https://www.cnblogs.com/chenwenyan/p/1012...
2020-02-17 GWAS进阶备选学习资料（GWAS tut
GWAS进阶备选 0 原理啊，全基因组关联分析（GWAS）的计算原理，了解一下？ 1 分析流程 GWAS分析基本...
GWAS分析-P值和beta值的爱恨相杀 (六)
前面已经简单介绍过GWAS的概念，GWAS分析中所用到的文件以及分析流程，我们在GWAS分析结果文件中经常会看到b...
遗传背景分析（群体结构10个样品以上）
2020.11.9【GWAS/WGS流程】丨全基因组关联分析绘图全流程_穆易青的博客-CSDN博客_gwas全基因...
常用GWAS统计方法和模型简介
本文是百迈客GWAS生物信息培训课程学习笔记第二篇，第一篇请参考GWAS基本分析内容这里首先介绍了GWAS分析中...
GWAS全基因组关联分析流程（BWA+samtools+gatk
我梳理了GWAS全基因组关联分析的整个流程，并提供了基本的命令，用到的软件包括BWA、samtools、gatk、...
用R语言做GWAS分析
该流程有：GWAS的QC，PCA分析，Manhattan图，QQ图，候选位点的功能分析参考学习资料：Genome...
工欲善其事必先利其器之OkHttp解读
一、OKHttp的基本使用基本的使用流程如下二、使用流程源码分析同步请求流程分析异步请求流程分析这里与同...
生物信息学视频课程
1. 热点分析 1. 全基因组关联分析（GWAS）基础内容及实战 2. 免疫相关lncRNA预后模型文...
群体进化-GWAS分析
群体进化-gwas分析群体进化基础分析 PCA 分析原理PCA(Principal Component ...