美文网首页
plink常用的命令总结

plink常用的命令总结

作者: wo_monic | 来源:发表于2023-11-08 15:11 被阅读0次

    1. 常用的各种格式之间的转换

    在获得vcf文件之后,经过过滤和提取SNP的变异之后,获得snp.vcf文件(从fq到vcf这些可以看GTAK4的教程)。

    vcf 转为二进制bedfile

    plink --vcf test.vcf --make-bed --out test --allow-extra-chr

    把vcf转为map和ped格式

    plink --vcf test.vcf --recode --out test --allow-extra-chr

    map和ped文件转为vcf格式

    plink --file test --recode vcf --out test

    把二进制bedfile 转为map和ped格式

    plink --bfile test --recode --out test

    #二进制bed转为vcf文件

    plink --bfile b --recode vcf --out e

    把测试的vcf转为0,1,2编码格式

    plink --vcf Test.vcf --recode A --out TAGSNP --allow-extra-chr

    ped文件中,SNP转化为012的标准是,主等位基因为0,杂合为1,次等位基因为2,这里还区分了基因的显隐性。

    plink --bfile test --recode AD --out output_coded --allow-extra-chr
    输出文件是output_coded.raw

    2. 常用的各种参数过滤

    --file参数后就是plink的map和ped格式的文件名的前缀

    删除样本材料缺失超过10%的基因型

    plink --file a --geno 0.1 --recode --out re

    删除基因型缺失超过10%的样本材料

    plink --file a --mind 0.1 --recode --out re

    次要等位基因频率MAF过滤,过滤MAF<0.05的基因型,(一般设置为0.01或0.05)

    plink --file a --maf 0.05 --recode --out re
    这里是删除MAF低于0.05的SNP位点。即大部分位置相同的基因型,这些位点贡献的信息很少,所以就删除,以减小计算量。
    注意:过滤的顺序是先做SNP过滤--geno,再做材料过滤--mind,不要同时过滤或者颠倒过滤的顺序

    哈德温伯格平衡过滤

    plink --bfile test -hwe 1e-5 --recode -out test2 --allow-extra-chr 过滤哈德温伯格p值,保留大于1e-5的变异
    plink --bfile test --hardy 可以输出plink.hwe文件,可以查看具体的哈德温伯格p值。

    3.文件提取

    样本提取,提取指定样本的基因型

    plink --file test --keep id_sample.txt --recode --out re
    test.ped的格式如下:

    test.ped

    id_sample.txt的格式和内容如下:
    第一列:FID,家系ID
    第二列:IID,个体ID

    B001 B001
    B002 B002
    B003 B003

    B004 B004
    B005 B005
    B006 B006
    B007 B007
    B008 B008
    B009 B009

    提取指定的SNP

    plink --file a --extract id_snp.txt --recode --out re --allow-extra-chr
    --extract, 提取SNP ID
    --exclude,删除SNP ID
    plink --file test --extract id_snp.txt --recode --out res --allow-extra-chr
    id_snp.txt是一列SNP ID序列编号。

    我编写的python3脚本

    vcf的ID列字符串.替换为Chr_Pos这种格式,

    vcfaddID.py input.vcf out.vcf
    vcfaddID.py 下载

    替换vcf文件的染色体编号

    replaceVcfChr.py Input.vcf old2newidfile Output.vcf
    replaceVcfChr.py 下载
    old2newidfile是两列chr的id,第1列是原始id,第2列是新的id,中间是tab分割。
    脚本会把第1列的id替换为第2列的id。

    相关文章

      网友评论

          本文标题:plink常用的命令总结

          本文链接:https://www.haomeiwen.com/subject/lvcqwdtx.html