1.vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具。
2.输入参数
–vcf <input_filename> 支持v4.0及以上版本的VCF文件
–gzvcf <input_filename> 通过gzipped压缩过的VCF文件
–bcf <input_filename> BCF2文件
3.输出参数
–out <output_prefix> 输出文件,直接对应输出文件命名
–temp <temporary_directory> 指定结果的输出目录
–stdout 可接管道符对输出结果进行重新定向
4.根据位置过滤
–chr <chromosome> 包含匹配的染色体
–not-chr <chromosome> 排除匹配的染色体
–from-bp
–to-bp 这两个参数需要和–chr一起使用,指定要处理的一系列站点的下限和上限
–positions<filename>
–exclude-positions <filename> 根据文件中的位置列表包括或排除一组位点。输入文件的每一行应包含(制表符分隔的)染色体和位置
5. (1)过滤掉indel,只保留snp。
vcftools --remove-indels --recode --recode-INFO-all --vcf raw.vcf --stdout >raw.snp.vcf
(2)过滤掉snp,只保留indel。
vcftools --keep-only-indels --recode --recode-INFO-all --vcf raw.vcf --stdout >raw.indel.vcf
6.根据基因型数值过滤
–max-meanDP <float>根据测序深度进行过滤
–hwe<float>
–max-missing <float>完整度,该参数介于0,1之间
–min-meanDP<float>
过滤没有缺失的snp位点。如下示例:
vcftools --vcf snp.vcf --recode --recode-INFO-all --stdout --max-missing 1 > snp.new.vcf ##--max-missing 后跟的值为 0-1 ,1代表不允许缺失,0代表允许全部缺失
7.核算多样性统计
–site-pi 计算所有SNP
–window-pi
–window-pi-step
8.输出格式
–recode
–recode-bcf
–recode-INFO
–recode-INFO-all
–contigs
9.格式转换
–012
–IMPUTE
–ldhat
–ldhat-geno
–BEAGLE-GL
–BEAGLE-PL
–plink
————————————————
版权声明:本文为CSDN博主「随风而逝*」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_41869644/article/details/88828514
网友评论