GATK4 Mutect2 call Short Variant

作者: JeremyL | 来源:发表于2018-11-18 02:31 被阅读4次

    GATK4 Mutect2 call Short Variant

    先来看一下GATK 官网对Short Variant的定义:

    Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.

    Mutect2

    Call somatic SNVs and indels via local assembly of haplotypes

    Mutect2有两种模式:

    (i) somatic mode:分析中,一个肿瘤样本与正常样本相匹配;

    (ii) tumor-only mode: 分析中, 只有一个肿瘤数据比对结果;

    (i) Tumor with matched normal

    利用提供的正常样本数据,Mutect2 只会找出那些体细胞变异;而在种系中普遍存在的变异会被Mutect2 忽略掉。对于那些在种系中无法很好界定的变异,Mutect2 会保留下来进行后续分析。

    调用gatk Mutect2

    gatk Mutect2 \
       -R reference.fa \
       -I tumor.bam \
       -tumor tumor_sample_name \
       -I normal.bam \
       -normal normal_sample_name \
       --germline-resource af-only-gnomad.vcf.gz \
       --af-of-alleles-not-in-resource 0.00003125 \ #变异不存在于种系中的期望值
       --panel-of-normals pon.vcf.gz \
       -O somatic.vcf.gz
    

    Mutect2不需要运算 a germline resource和a panel of normals (PoN) ;只是利用这两个数据来过滤等位的变异位点。

    种群等位位点频率格式如下:

      #CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
          1       10067   .       T       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC      30.35   PASS    AC=3;AF=7.384E-5
          1       10108   .       CAACCCT C       46514.32        PASS    AC=6;AF=1.525E-4
          1       10109   .       AACCCTAACCCT    AAACCCT,*       89837.27        PASS    AC=48,5;AF=0.001223,1.273E-4
          1       10114   .       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA  *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T      36728.97        PASS    AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
          1       10119   .       CT      C,*     251.23  PASS    AC=5,1;AF=1.249E-4,2.498E-5
          1       10120   .       TA      CA,*    14928.74        PASS    AC=10,6;AF=2.5E-4,1.5E-4
          1       10128   .       ACCCTAACCCTAACCCTAAC    A,*     285.71  PASS    AC=3,1;AF=7.58E-5,2.527E-5
          1       10131   .       CT      C,*     378.93  PASS    AC=7,5;AF=1.765E-4,1.261E-4
          1       10132   .       TAACCC  *,T     18025.11        PASS    AC=12,2;AF=3.03E-4,5.049E-5
     
    

    (ii) Tumor-only mode

    单个样本时,使用CreateSomaticPanelOfNormals 生成a panel of normals;

    CreateSequenceDictionary 是Picard中一个功能,利用参考序列生成参考序列的索引(.dict).

    调用CreateSequenceDictionary

    java -jar picard.jar CreateSequenceDictionary \ 
          R=reference.fasta \ # .fasta 或 .fasta.gz
          O=reference.dict
    

    调用gatk Mutect2

     gatk Mutect2 \
       -R reference.fa \
       -I sample.bam \
       -tumor sample_name \
       -O single_sample.vcf.gz
    

    Mutect2 必须设定的参数:

    --input -I :BAM/SAM/CRAM文件

    --output -O :写入变异信息的加过文件

    --reference -R :参考序列

    --tumor-sample -tumor : 肿瘤样品名

    参考:

    GATK4 Mutect2 User Guide

    相关文章

      网友评论

        本文标题:GATK4 Mutect2 call Short Variant

        本文链接:https://www.haomeiwen.com/subject/vcewfqtx.html