plink是由哈佛大学开发的一个免费、开源的全基因组关联分析软件,功能非常强大。基础的文件格式转换、质量控制,到需要大量运算的群体分层分析、连锁不平衡计算、单体型构建等,都可以通过plink完成。
详细的说明书可以查阅官方网站:
http://zzz.bwh.harvard.edu/plink/
这里只介绍一些我在GWAS中运用到plink的地方。
1.下载及安装
1.1 下载地址
可以根据自己电脑的系统,选择合适的版本下载
http://zzz.bwh.harvard.edu/plink/download.shtml#download

1.2 安装
cd /gss1/home/fzhang/sunwei
unzip plink_linux_x86_64_20190215.zip
cd /gss1/home/fzhang/sunwei/plink1.9
1.3 运行
./plink

2. 基础用法
2.1 plink转vcf格式为bed
./plink --vcf root.hic.id.vcf --make-bed --out root.hic.id --allow-extra-chr
--allow-extra-chr 允许其他染色体,比如scaffold
2.2 plink转vcf格式为ped
scaffold序列用vcftools转会丢失数据,所以选择plink1.9
输出结果为碱基ATCG
./plink --vcf root.hic.id.vcf --allow-extra-chr --recode --out root.hic.id
当文件太大时,可以将结果输出为二进制文件
./plink --vcf root.hic.id.vcf --allow-extra-chr --recode12 --out root12.hic.id --autosome-num 27
--autosome-num 设置染色体数目,plink默认输入数据是人类数据,当输入的染色体数目大于23条时,会出现报错,需要设置数目,这里按我做的物种设置为27。
2.3 其他功能
由于plink十分强大,这里不再赘述,其他的功能会在我GWAS分析过程中,使用到plink时继续介绍,详见GWAS的系列文章中,这样更加方便系统理解。
网友评论