硬过滤其实就是通过人为设定一个或者若干个指标阈值(也可以叫数据特征值),然后把所有不满足阈值的变异位点采用一刀切掉的方法。
可以直接使用GATK VQSR所用的指标——毕竟这些指标都是经过精挑细选的。
QualByDepth(QD)
FisherStrand (FS)
StrandOddsRatio (SOR)
RMSMappingQuality (MQ)
MappingQualityRankSumTest (MQRankSum)
ReadPosRankSumTest (ReadPosRankSum)

合并snp indel 过滤文件
time $gatk MergeVcfs \
-I out/${sample}.HC.snp.filter.vcf.gz out/${sample}.HC.indel.filter.vcf.gz \
-O out/${sample}.HC.filter.vcf.gz
符合filter-expression会被过滤掉,留下的视为正常变异。
https://www.jianshu.com/p/ff8204ae7ebf

所以,上面的阈值都是NA12878(来自GIAB)的高深度数据得到的。如果是其他物种,可以用类似方法找。
还有snpEFF注释和IGV可视化等。
网友评论