![](https://img.haomeiwen.com/i29318468/2345252e8d4c9225.png)
-
1 生成
vcf基本上都是直接从bam格式文件中生成的,可以使用bcftools,gatk,freebayes,lumpy,delly等工具。 -
2 格式转换
vcf是文本格式,可以直接打开查看,bcf为二进制格式,不能直接使用less命令查看,但是二进制会节约存储。
bcftools view A1.vcf -O b -o A1.bcf.gz
-o:输出结果文件
-O:数据文件格式
-
3 建立索引
bcftools index 默认生成csi格式索引,加-t选项生成tbi格式索引。 -
4 查看固定区域
多个区域需要bed文件。
bcftools view A1.bcf.gz -R region.bed
- 5 统计
bcftools stats
plot-vcfstats
- 6 查看固定信息
使用bcftools的query功能筛选。
每个关键字前面使用%,“\t”或者“\n”代表制表符与换行符。
-
7 合并多个结果
bcftools merge -
8 拆分SNP与InDel
可以使用bcftools view的-v选项,后面可以接snps与indels或者mnps等。 -
9 过滤
变异检测的策略一般是先找全,然后在找准。也就是软件首先输出尽可能多的结果,保存到vcf文件中,然后在采取不同的标准对vcf进行过滤。过滤可以采取很多的标准,一般包括测序深度,打分制,碱基质量值,先验概率等。可以使用bcftools的filter功能,关键是要掌握其表达式EXPRESSIONS的写法。
- 10 注释
主要是将突变位点定位到基因组上,确定突变发生在哪个基因。另外一种注释就是与已知突变位点进行比较,定位到已知的rs number号上面。
bcftools annotate -
- 11 SNPeff注释
snpeff主要用来预测snp突变的影响,包括氨基酸变化等
snpsift的功能是用来操作变异结果文件,需要使用相关数据库。
- 12 Annovar注释
- 13 clinvar临床数据库注释
clinvar是收集了与人类疾病相关突变位点的数据库,可根据突变情况进行疾病的预测。需要下载clinvar数据库,之后使用snpEFF或者annovar软件进行注释。
- 14 一致性序列
主要用于构建系统发育树。
bcftools consensus
- 15 VQSR
VQSR是Variant Quality Score Recalibration,是GATK的核心功能,也就是利用机器学习算法对vcf进行过滤。
网友评论