美文网首页变异检测
gatk VariantFiltration(Mutect2后)

gatk VariantFiltration(Mutect2后)

作者: 陈宇乔 | 来源:发表于2019-11-16 22:01 被阅读0次

    关于vcf文件的学习(所有的需要信息都在头文件中)

    FORMAT

    variants的格式,例如GT:AD:DP:GQ:PL

    GT:样品的基因型(genotype)

    两个数字中间用’/'分 开,这两个数字表示双倍体的sample的基因型。
    0 表示样品中有ref的allele;
    1 表示样品中variant的allele;
    2表示有第二个variant的allele。

    所以:
    0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
    0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
    1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
    1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

    AD和DP

    AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型


    image.png

    DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加和


    image.png

    例如:
    1/1:0,175:175—GT:AD(REF),AD(ALT):DP
    0/1:79,96:175
    1/2:0,20,56:76
    这里的三种类型对应的DP值均是其对应的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

    GQ:基因型的质量值(Genotype Quality)

    Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;
    计算方法:Phred值=-10log(1-P),P为基因型存在的概率。(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)

    PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);

    这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10log(P)**,P为基因型存在的概率。最有可能的genotype的值为0

    关于突变的帅选

    文章 Identification of trunk mutations in gastric carcinoma的筛选方法


    image.png
    关于VariantFiltration 的各个参数

    参考https://software.broadinstitute.org/gatk/documentation/tooldocs/current/org_broadinstitute_hellbender_tools_walkers_filters_VariantFiltration.php

    ![1573902826844.png](https://img.haomeiwen.com/i13817032/b5fdff0ff230e93d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

    首先尝试使用单个样本进行尝试

    gatk VariantFiltration \
    -V P174635_LN_filter.snp.vcf \
    --filter-expression "CONTQ < 50 || DP < 500 || GERMQ < 30 " \
    --filter-name "yuqiao" \
    -G-filter "AF < 0.1" \
    -G-filter-name "low_AF" \
    -O P174635_LN_filter.snp.filter.vcf
    

    注意:每个筛选都需要给一个名字。

    image.png

    此时在文件中的Format 这一栏,两个样本(癌组织和癌旁组织)都会多一个栏目FT(filter的意思),按照标准,分为PASS and low_AF加以区分。

    相关文章

      网友评论

        本文标题:gatk VariantFiltration(Mutect2后)

        本文链接:https://www.haomeiwen.com/subject/wmduictx.html