1. 常用的各种格式之间的转换
在获得vcf文件之后,经过过滤和提取SNP的变异之后,获得snp.vcf
文件(从fq到vcf这些可以看GTAK4的教程)。
vcf 转为二进制bedfile
plink --vcf test.vcf --make-bed --out test --allow-extra-chr
把vcf转为map和ped格式
plink --vcf test.vcf --recode --out test --allow-extra-chr
map和ped文件转为vcf格式
plink --file test --recode vcf --out test
把二进制bedfile 转为map和ped格式
plink --bfile test --recode --out test
#二进制bed转为vcf文件
plink --bfile b --recode vcf --out e
把测试的vcf转为0,1,2编码格式
plink --vcf Test.vcf --recode A --out TAGSNP --allow-extra-chr
ped文件中,SNP转化为012的标准是,主等位基因为0,杂合为1,次等位基因为2,这里还区分了基因的显隐性。
plink --bfile test --recode AD --out output_coded --allow-extra-chr
输出文件是output_coded.raw
2. 常用的各种参数过滤
--file
参数后就是plink的map和ped格式的文件名的前缀
删除样本材料缺失超过10%的基因型
plink --file a --geno 0.1 --recode --out re
删除基因型缺失超过10%的样本材料
plink --file a --mind 0.1 --recode --out re
次要等位基因频率MAF过滤,过滤MAF<0.05的基因型,(一般设置为0.01或0.05)
plink --file a --maf 0.05 --recode --out re
这里是删除MAF低于0.05的SNP位点。即大部分位置相同的基因型,这些位点贡献的信息很少,所以就删除,以减小计算量。
注意:过滤的顺序是先做SNP过滤--geno
,再做材料过滤--mind
,不要同时过滤或者颠倒过滤的顺序
哈德温伯格平衡过滤
plink --bfile test -hwe 1e-5 --recode -out test2 --allow-extra-chr
过滤哈德温伯格p值,保留大于1e-5的变异
plink --bfile test --hardy
可以输出plink.hwe文件,可以查看具体的哈德温伯格p值。
3.文件提取
样本提取,提取指定样本的基因型
plink --file test --keep id_sample.txt --recode --out re
test.ped的格式如下:
id_sample.txt的格式和内容如下:
第一列:FID,家系ID
第二列:IID,个体ID
B001 B001
B002 B002
B003 B003
B004 B004
B005 B005
B006 B006
B007 B007
B008 B008
B009 B009
提取指定的SNP
plink --file a --extract id_snp.txt --recode --out re --allow-extra-chr
--extract, 提取SNP ID
--exclude,删除SNP ID
plink --file test --extract id_snp.txt --recode --out res --allow-extra-chr
id_snp.txt
是一列SNP ID序列编号。
我编写的python3脚本
vcf的ID列字符串.替换为Chr_Pos
这种格式,
vcfaddID.py input.vcf out.vcf
vcfaddID.py 下载
替换vcf文件的染色体编号
replaceVcfChr.py Input.vcf old2newidfile Output.vcf
replaceVcfChr.py 下载
old2newidfile是两列chr的id,第1列是原始id,第2列是新的id,中间是tab分割。
脚本会把第1列的id替换为第2列的id。
网友评论