美文网首页群体遗传学
全基因组关联分析工具集 - plink

全基因组关联分析工具集 - plink

作者: 胡童远 | 来源:发表于2020-08-23 18:18 被阅读0次

    导读

    硕研时接触过芯片SNP与人群phenotype的关联分析,因为原因没做下去。分析方法忘了,以此文回顾。

    plink官网:http://zzz.bwh.harvard.edu/plink/
    plink功能:数据管理、质控、人群分层检测、关联分析-SNP、多marker预测、haplotype分析、拷贝数变异分析、异位显性分析、关联分析-基因、基因环境互作分析、meta分析等。

    一、输入数据

    1. ped [SNP信息]

    第一列:家庭编号family id
    第二列:个体编号individual id
    第三列:父亲编号paternal id
    第四列:母亲编号maternal id
    第五列:性别(1 male 2 female)
    第六列:基因型genotype

    2. map [染色体信息]

    第一列:染色体编号1-22 X Y 0(unplaced)
    第二列:SNP rs编号
    第三列:morgen遗传距离
    第四列:碱基对位置bp

    3. binary PED files

    PLINK可以在ped和map文件的基础上通过创建binary ped file (.bed)来节省运行时间和存储空间。这种格式的文件将pedigree/phenotype information存储在.fam文件中,并且通过创建一个.bim文件来储存map信息(包括allele name等)。

    在plink中可以通过以下命令创建binary ped文件:

    plink --file mydata --make-bed
    

    以上命令行将创建出以下三个文件:

    plink.bed ( binary file, genotype information )
    plink.fam ( first six columns of mydata.ped )
    plink.bim ( extended MAP file: two extra cols = allele names)

    4. phenotype [表型信息]

    自行创建表型文件pheno.txt,可在其中存入多种表型或协变量。
    前两列必须为FID和IID,后面是表型:

    第一列:家庭编号
    第二列:个人编号
    其他列:表型数据

    案例:

    # --pheno后随表型文件
    plink --file input_data --pheno pheno.txt --pheno-name bmi --assoc
    
    5. 协变量信息

    格式与表型文件相同。

    案例:

    # --covar后随协变量文件
    # 列号形式
    plink --file mydata --covar c.txt --covar-number 2,4-6,8
    # 列名形式
    plink --file mydata --covar c.txt --covar-name AGE,BMI-SMOKE,ALC
    

    二、数据质控

    1. 检测缺失个体和基因型

    方法:

    plink --file data --missing
    

    结果文件1:个体.imiss



    第一列:家庭编号
    第二列:个体编号
    第三列:缺失SNP数
    第四列:number of non-obligatory missing genotype
    第五列:缺失SNP占比

    结果文件2:SNP.lmiss


    第一列:SNP编号
    第二列:染色体编号
    第三列:缺失该SNP的个体数
    第四列:number of non-obligatory missing genotype
    第五列:缺失该SNP的个体数占比

    2. Hardy-Weinberg Equilibrium检测

    方法:

    # --hardy 分析哈迪温伯格平衡
    plink --file data --hardy
    

    结果文件:file.hwe

    3. 等位基因(allele)频率

    方法:

    # --freq
    plink --file data --freq
    

    结果文件:



    4. 纳入阈值

    说明:设置阈值如果超过阈值则删除对应的SNP或个体

    三、MDS分析

    1. 方法:
    plink --bfile 333 --indep-pairwise 50 10 0.2 --out prune1 
    # generating independent SNP groups (generate prune1.prune.in/prune1.prune.out)
    plink --bfile 333 --extract prune1.prune.in --genome --out ibs1
    # (calculate IBS metrics for independent SNPs, generating ibs1.genome)
    plink --bfile 333 --read-genome ibs1.genome --cluster --mds-plot 2 --cc --ppc 0.001 --out strat1
    # (generating 2 dimensional plot strat1.mds, then use excel to draw plot of c1 against c2 in the trat1.mds form)
    

    结果文件:


    2. 去除outlier
    plink --bfile 333 --read-genome ibs1.genome --cluster --cc --ppc 0.001 --neighbour 1 5 --out outlier
    # Kick out the individuals with the minimum Z score<-4
    

    结果文件:outlier.nearest

    四、关联分析

    方法1:基于卡方检验
    # --assoc (chi-square test)
    plink --file mydata --assoc
    

    结果文件:plink.assoc

    方法2:基于fisher精确检验
    plink --file mydata –fisher
    

    结果文件:plink.fisher

    方法3:隐/显性模型
    # --model (隐性、显性等模型)
    # --dominant
    # --recessive
    plink --file mydata --model
    

    结果文件:plink.model

    五、回归分析

    通过回归矫正协变量。

    1. 方法:数量/质量性状
    # 数量性状:
    plink --bfile mydata --linear
    # 质量性状:
    plink --bfile mydaya –logistic
    

    结果文件:plink.assoc.linear/logistic

    2. 其他方法、QQ图
    # --qq-plot  qq图
    # --adjust  多重矫正P值
    # --dominant  线性模型
    # --recessive  隐性模型
    plink --bfile mydaya –logistic --qq-plot --adjust --dominant
    plink --bfile mydaya –logistic --qq-plot --adjust --recessive
    

    更多阅读:
    1 GWAS 学习笔记 | 从理论到实践
    2 全基因组关联分析(GWAS) — 群体结构

    相关文章

      网友评论

        本文标题:全基因组关联分析工具集 - plink

        本文链接:https://www.haomeiwen.com/subject/tuzijktx.html