在群体遗传学相关的系数计算这一块,vcftools是个很好的工具,操作简单,可以从变异检测的vcf出发,直接计算Pi系数,TajimaD系数以及Fst系数,还是比较方便。
安装
- 在老版本不支持vcf4.2的情况下,可以选择安装新版vcftools。
- 下载地址为:https://sourceforge.net/projects/vcftools/files/
以最新版本0.1.13版本为例,首先我们需要下载源码安装包:
$ wget https://sourceforge.net/projects/vcftools/files/vcftools_0.1.13.tar.gz/download -o vcftools_0.1.13.tar.gz
$ tar zxvf vcftools_0.1.13.tar.gz
$ cd vcftools_0.1.13
$ make
这个安装包里面不包含configure文件,也就意味着不需要指定安装目录,软件会自动安装在当前目录,我们按上述代码解压之后直接make就好。
报错信息
安装过程可能会碰到错误提示,如
vcf_file.cpp:(.text+0xe72): undefined reference to `gzbuffer'
collect2: ld returned 1 exit status
make[1]: *** [vcftools] Error 1
make[1]: Leaving directory `/home/Public/Packages/vcftools_0.1.10/cpp'
/bin/sh: 2: cd: can't cd to perl
make: *** [install] Error 2
在出现这个错误的时候,我去geogle了一下(geogle到的网页是https://www.biostars.org/p/61236/),发现是zlib库版本不高,需要安装高版本的zlib,或者说你安装了高版本的zlib库,但是不在默认的库搜索路径,如/usr/local/lib、/usr/lib64目录下。
- 你可以对cpp/Makefile文件进行修改,指定LIB的库路径,-L 后接的是你高版本zlib的安装目录。
`# Included libraries (zlib) #LIB = -lz LIB = -lz -I /usr/include/ -L /home/Public/Packages/zlib-1.2.7/`
在修改完这个代码后,再次make即可安装成功。
vcftools的参数含义可以看vcftools参考文献,或者见博客.
vcftools的使用
- 在计算Pi系数的时候,代码如下:
vcftools --vcf all.gatk.fliter.vcf --remove-filtered-geno-all --site-pi --out watermelon.pi
运行信息如下:
VCFtools - v0.1.13
(C) Adam Auton and Anthony Marcketta 2009
Parameters as interpreted:
--vcf all.gatk.fliter.vcf
--out watermelon.pi
--site-pi
--remove-filtered-geno-all
After filtering, kept 19 out of 19 Individuals
Outputting Per-Site Nucleotide Diversity Statistics...
After filtering, kept 8079873 out of a possible 8079873 Sites
Run Time = 195.00 seconds
- 在计算Fst系数时候,代码如下:
vcftools --vcf all.gatk.fliter.vcf --remove-filtered-geno-all --weir-fst-pop population_1.txt --weir-fst-pop population_2.txt --out watermelon.pi
网友评论