在获得SNP和INDEL后,需要对raw data进行质控,剔除假阳性的标记,GATK官方推荐的方法是VQSR,原理是利用已知的数据库和测序数据进行比较,评估位点的可信度。
官方说明(GATK4.2.1.0版本)
https://gatk.broadinstitute.org/hc/en-us/articles/4404604873243-VariantRecalibrator
但VQSR只适用于模式作物,需要提供Hapmap、OMNI,1000G和dbsnp等这些国际性项目的数据。不能提供这些数据时,只能通过硬过滤进行筛选,即人为设定一些指标的标准,筛选掉不满足要求的位点。
硬筛选官方说明书:
https://gatk.broadinstitute.org/hc/en-us/articles/4404604763547-VariantFiltration
$ gatk VariantFiltration \
-R ~/ref/Mparg_v2.0.fa \
-V LPF1_MP_raw_snps.vcf \
-O LPF1_MP_snps.vcf \
--filter-name "QUAL30" --filter-expression "QUAL < 30.0" \
--filter-name "FS60" --filter-expression "FS > 60.0" \
--filter-name "QD2" --filter-expression "QD < 2.0" \
--filter-name "SOR3" --filter-expression "SOR > 3.0" \
--filter-name "MQ40" --filter-expression "MQ < 40.0" \
--filter-name "ReadPosRankSum-8" --filter-expression "ReadPosRankSum < -8.0" \
--filter-name "MQRankSum-12.5" --filter-expression "MQRankSum < -12.5"
引用转载请注明出处,如有错误敬请指出。
网友评论