全基因组关联分析工具集 - plink

作者: 胡童远 | 来源:发表于2020-08-23 18:18 被阅读0次

Plink_1.介绍
全基因组关联分析工具集 - plink
重测序分析（14）全基因组关联分析GWAS介绍
plink PED 文件格式介绍
plink安装及基础用法
生信小工具：Plink之下载安装与其基本格式（1）
Science | 群体研究新思路：De novo + GWAS
GWAS定义
如何做GWAS关联分析
全基因组关联分析软件plink的用法

导读

硕研时接触过芯片SNP与人群phenotype的关联分析，因为原因没做下去。分析方法忘了，以此文回顾。

plink官网：http://zzz.bwh.harvard.edu/plink/
plink功能：数据管理、质控、人群分层检测、关联分析-SNP、多marker预测、haplotype分析、拷贝数变异分析、异位显性分析、关联分析-基因、基因环境互作分析、meta分析等。

一、输入数据

1. ped [SNP信息]

第一列：家庭编号family id
第二列：个体编号individual id
第三列：父亲编号paternal id
第四列：母亲编号maternal id
第五列：性别（1 male 2 female）
第六列：基因型genotype

2. map [染色体信息]

第一列：染色体编号1-22 X Y 0(unplaced)
第二列：SNP rs编号
第三列：morgen遗传距离
第四列：碱基对位置bp

3. binary PED files

PLINK可以在ped和map文件的基础上通过创建binary ped file (.bed)来节省运行时间和存储空间。这种格式的文件将pedigree/phenotype information存储在.fam文件中，并且通过创建一个.bim文件来储存map信息（包括allele name等）。

在plink中可以通过以下命令创建binary ped文件：

plink --file mydata --make-bed

以上命令行将创建出以下三个文件：

plink.bed ( binary file, genotype information )
plink.fam ( first six columns of mydata.ped )
plink.bim ( extended MAP file: two extra cols = allele names)

4. phenotype [表型信息]

自行创建表型文件pheno.txt，可在其中存入多种表型或协变量。
前两列必须为FID和IID,后面是表型：

第一列：家庭编号
第二列：个人编号
其他列：表型数据

案例：

# --pheno后随表型文件
plink --file input_data --pheno pheno.txt --pheno-name bmi --assoc

5. 协变量信息

格式与表型文件相同。

案例：

# --covar后随协变量文件
# 列号形式
plink --file mydata --covar c.txt --covar-number 2,4-6,8
# 列名形式
plink --file mydata --covar c.txt --covar-name AGE,BMI-SMOKE,ALC

二、数据质控

1. 检测缺失个体和基因型

方法：

plink --file data --missing

结果文件1：个体.imiss

第一列：家庭编号
第二列：个体编号
第三列：缺失SNP数
第四列：number of non-obligatory missing genotype
第五列：缺失SNP占比

结果文件2：SNP.lmiss

第一列：SNP编号
第二列：染色体编号
第三列：缺失该SNP的个体数
第四列：number of non-obligatory missing genotype
第五列：缺失该SNP的个体数占比

2. Hardy-Weinberg Equilibrium检测

方法：

# --hardy 分析哈迪温伯格平衡
plink --file data --hardy

结果文件：file.hwe

3. 等位基因（allele）频率

方法：

# --freq
plink --file data --freq

结果文件：

4. 纳入阈值

说明：设置阈值如果超过阈值则删除对应的SNP或个体

三、MDS分析

1. 方法：

plink --bfile 333 --indep-pairwise 50 10 0.2 --out prune1 
# generating independent SNP groups (generate prune1.prune.in/prune1.prune.out)
plink --bfile 333 --extract prune1.prune.in --genome --out ibs1
# (calculate IBS metrics for independent SNPs, generating ibs1.genome)
plink --bfile 333 --read-genome ibs1.genome --cluster --mds-plot 2 --cc --ppc 0.001 --out strat1
# (generating 2 dimensional plot strat1.mds, then use excel to draw plot of c1 against c2 in the trat1.mds form)

结果文件：

2. 去除outlier

plink --bfile 333 --read-genome ibs1.genome --cluster --cc --ppc 0.001 --neighbour 1 5 --out outlier
# Kick out the individuals with the minimum Z score<-4

结果文件：outlier.nearest

四、关联分析

方法1：基于卡方检验

# --assoc (chi-square test)
plink --file mydata --assoc

结果文件：plink.assoc

方法2：基于fisher精确检验

plink --file mydata –fisher

结果文件：plink.fisher

方法3：隐/显性模型

# --model (隐性、显性等模型)
# --dominant
# --recessive
plink --file mydata --model

结果文件：plink.model

五、回归分析

通过回归矫正协变量。

1. 方法：数量/质量性状

# 数量性状：
plink --bfile mydata --linear
# 质量性状：
plink --bfile mydaya –logistic

结果文件：plink.assoc.linear/logistic

2. 其他方法、QQ图

# --qq-plot  qq图
# --adjust  多重矫正P值
# --dominant  线性模型
# --recessive  隐性模型
plink --bfile mydaya –logistic --qq-plot --adjust --dominant
plink --bfile mydaya –logistic --qq-plot --adjust --recessive