美文网首页
gvcf文件与vcf文件

gvcf文件与vcf文件

作者: 爱吃海椒的妹妹 | 来源:发表于2022-05-04 21:07 被阅读0次

    一、解释一

    这里注意HaplotypeCaller只能处理单样本文件,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件,GVCF会记录每一个位点到情况,包括有无突变,VCF只记录突变位点情况,之后在下一步对GVCF文件进行合并。

    作者:Wei_Sun
    链接:https://www.jianshu.com/p/c92780b13242
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    二、解释二

    gvcf文件与vcf文件都是vcf文件,不同之处在于gvcf文件会记录更多的信息,这里更多的信息指的是未突变的位点的覆盖情况,从下面的图我们可以直观的看出两者的区别

    image.png

    可以看到,gvcf文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种gvcf文件记录非突变位点的时候,以块的形式来记录,而后一种gvcf文件则是对非突变和突变位点一视同仁,前一种方式是为了有效的压缩文件的行数和大小,对后续的分析没有影响,因此这里推荐使用前一种gvcf文件。

    那么为什么要使用gvcf文件而不是vcf文件呢?这里主要的原因在于多个样本的vcf文件进行合并的时候,需要区分./.和0/0的情况,./.是未检出的基因型,而0/0是未突变的基因型,如果仅使用普通的vcf文件进行合并,那么就无法区分这两种情况,进而对合并结果产生偏差。实际上,我们也可以直接将gvcf文件和vcf文件使用bcftools merge进行merge,但是这样拿到的结果会有偏差,因为vcf文件没有未突变的位点的情况。
    ————————————————
    版权声明:本文为CSDN博主「卡西莫多的礼物」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qq_35696312/article/details/88343352

    三、总结:

    在处理单样本时:
    可以直接使用VCF文件
    在处理多样本时:
    由于使用普通的vcf文件进行合并,无法区分./.和0/0的情况(./.是未检出的基因型,而0/0是未突变的基因型),会使结果出现偏差。所以,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件之后在下一步对GVCF文件进行合并。

    相关文章

      网友评论

          本文标题:gvcf文件与vcf文件

          本文链接:https://www.haomeiwen.com/subject/pcegyrtx.html