GATK4.0和GATK3.5 Call SNV的差异

作者: 晓佥 | 来源:发表于2019-06-06 13:08 被阅读54次

    1.一个外显子测序样本数据的结果比较

    用bwa和samtools做常规处理,再分别用GATK4.0和GATK3.5的HC去Call SNV,均使用默认参数。


    GATK4.0明显比GATK3.5 Call出的SNV的数量多。

    2.通过Vep注释,挑选外显子区域的SNV

    vep -i merge_sort_dedup_GATK_v4.0.vcf -o tmp4.out --cache --cache_version 82 --offline --vcf vep注释命令
    通过vep分别对GATK4.0和GATK3.5的SNV注释,统计属于外显子的SNV的数量。



    同样的,注释后GATK4.0还是明显比GATK3.5 Call出的SNV的数量多。

    3.通过VQSR过滤SNV

    GATK4.0和GATK3.5分别有自己的VQSR,有相同的地方也有不同的,也都用默认参数。
    注:分别用的是自己软件的VQSR


    VQSR后,SNV在GATK3.5中而不在GATK4.0中的数量变多了,当然VQSR后总数变小了。
    说明两个软件的VQSR有差异,并对Call出的SNV的数量有很大的影响。
    因为是外显子数据,所以Call出SNV的数量可能受DP的影响。

    4.比较VQSR前后不同DP下的SNV数量

    grep -v ^# merge_sort_dedup_GATK_v4.0.vqsr.vcf |grep PASS|awk '{split($10,a,":");if(a[3]>=10){print $0}}' | wc -l
    对VQSR前后的数据进行DP的筛选,在GATK4.0和GATK3.5中,在不同的DP过滤下,统计Call出的SNV的数量。
    注:两个软件生成的vcf文件都是用的GATK3.5的VQSR,以去除不同软件不同VQSR的影响。
    VQSR前后的SNV的数量都随着DP值的增加而减少,减少到一定值后趋于平缓。
    当DP>=4/5 之后,GATK4.0和GATK3.5 Call出的SNV的数量已经比较接近并趋于平缓。
    VQSR后,GATK4.0和GATK3.5 Call出的SNV的数量比VQSR之前Call出的SNV数量更接近。
    说明VQSR对GATK4.0和GATK3.5 Call出SNV的数量的影响比较大,通过调整VQSR的具体参数可减少软件间的差异。
    另,VQSR中,当分析外显子测序数据时,不要用 -an DP 这个参数,因为深度对外显子测序数据影响比较大。

    VQSR前
    VQSR后

    5.取DP>=10时,在VQSR前后的GATK4.0和GATK3.5 Call出的SNV数量比较

    VQSR前后的SNV的数量都随着DP值的增加而减少,减少到一定值后趋于平缓。
    我们取DP>=10时的两软件Call出的SNV数量分别做VQSR前和VQSR后的韦恩图。
    注:两个软件生成的vcf文件都是用的GATK3.5的VQSR,以去除不同软件不同VQSR的影响。


    印证了DP对两个软件差异的影响,同时也说明了VQSR前后对Call出的SNV数量的影响。

    6.VQSR在GATK4.0和GATK3.5中的比较


    红色的是基本参数,蓝色的是变化,其中明显变化是,GATK4.0的VQSR将snp和indel合并处理,而GATK3.5则是分开的。

    7.结论

    GATK4.0和GATK3.5针对Call SNV数量上的差异主要在于外显子测序数据的DP值比较低,导致两个软件对于低DP值Call出的SNV保留与否存在差异,GATK4.0有更大的包容性。我们可以通过VQSR的参数设置,针对DP值做详细的筛选过滤,来缩小两个软件间的差异。

    补充:
    GATK4 速度:
    https://gatkforums.broadinstitute.org/gatk/discussion/11283/gatk3-8-vs-gatk4-va-gatk4spark-the-newer-the-slower

    HC在GATK4和GATK3:
    https://gatkforums.broadinstitute.org/gatk/discussion/9957/haplotypecaller-in-gatk4-vs-gatk3

    GATK4的云流程:
    https://help.aliyun.com/document_detail/60414.html?spm=5176.11065259.1996646101.searchclickresult.14c51b0bIlpQgI


    Performance benchmarking of GATK3.8 and GATK4:
    https://www.biorxiv.org/content/biorxiv/early/2018/06/18/348565.full.pdf

    相关文章

      网友评论

        本文标题:GATK4.0和GATK3.5 Call SNV的差异

        本文链接:https://www.haomeiwen.com/subject/tgnkxctx.html