美文网首页生物信息软件
GATK4最佳实践-体细胞突变的检测与识别

GATK4最佳实践-体细胞突变的检测与识别

作者: 生信修炼手册 | 来源:发表于2018-06-04 17:08 被阅读1172次

    欢迎关注"生信修炼手册"!

    分析体细胞突变时,通常采用tumor_vs_nomal 的实验设计。在检测时,由于同时会检测出生殖细胞突变和体细胞突变,需要做的就是去除生殖细胞突变位点,那么剩下的就是体细胞突变位点了,GATK4 采用Mutect2 检测体细胞突变,分析流程如下:

    1. 根据normal 样本得到 panel of normal

    首先对每个normal 样本,运行Mutect2

    gatk Mutect2 \
       -R reference.fa \
       -I normal1.bam \
       -tumor normal1_sample_name \
       --germline-resource af-only-gnomad.vcf.gz \
       -O normal1_for_pon.vcf.gz

    然后使用CreateSomaticPanelOfNormals命令创建panel of normal

    gatk CreateSomaticPanelOfNormals \
       -vcfs normal1_for_pon_vcf.gz \
       -vcfs normal2_for_pon_vcf.gz \
       -vcfs normal3_for_pon_vcf.gz \
       -O pon.vcf.gz

    2. normal_vs_turmor 得到体细胞突变

    命令如下:

    gatk Mutect2 \
       -R reference.fa \
       -I tumor.bam \
       -tumor tumor_sample_name \
       -I normal.bam \
       -normal normal_sample_name \
       --germline-resource af-only-gnomad.vcf.gz \
       --af-of-alleles-not-in-resource 0.00003125 \
       --panel-of-normals pon.vcf.gz \
       -O somatic.vcf.gz

    mutect2检测时,是成对检测的,需要一个normal bam 和 turmor bam, germline-resource指定一个生殖细胞突变的vcf文件,这里选择的是gnomAD数据库 ,链接如下

    http://gnomad.broadinstitute.org

    这个数据库收集了大量外显子和全基因组测序的SNP calling结果。af-of-alleles-not-in-resource指定germline-resource 变异位点的频率,低于该频率的位点认为是一个不可靠的生殖细胞突变位点。panel-of-normals指定第一步生成的pon.vcf.gz文件。

    3. 过滤VCF文件

    第一步,运行GetPileupSummaries

    gatk-launch GetPileupSummaries \
       -I tumor.bam \
       -V small_exac_common_3.vcf \
       -O pileups.table

    第二步,运行CalculateContamination

    gatk-launch  CalculateContamination \
       -I pileups.table \
       -O contamination.table

    第三步,运行FilterMutectCalls

    gatk FilterMutectCalls \
       -V somatic.vcf.gz \
       -contamination-table contamination.table \
       -O filtere

    扫描关注微信号,更多精彩内容等着你!

    相关文章

      网友评论

      • 我瞎蒙:请教一个问题af-only-gnomad.vcf.gz是如何获得的
      • 1efe0eff5651:请问3过滤这步里small_exac_common_3.vcf是什么文件?从哪里得到的?
        我瞎蒙:wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/Mutect2/GetPileupSummaries/small_exac_common_3.hg38.vcf.gz
      • elaine0622:请教一下,在得到 panel of normal这一步,如果正常样本非常多该怎么办呢?不可能一个一个地输入吧
        生信修炼手册:@elaine0622 my @normal_samples = ("A", "B", "C", "D");
        my $normal_vcfs = join " ", map { qq{-vcfs $_\.vcf.gz} } @normal_samples;
        my $out_vcf = qq{out_vcf.gz};
        my $command = qq{gatk CreateSomaticPanelOfNormals $normal_vcfs $out_vcf};

        print qq{$command\n};
        elaine0622:@庐州月光 请问一下在使用CreateSomaticPanelOfNormals这个命令时,如果样本量比较大,该怎么写脚本呢,-vcfs这个参数要输入这么多次
        生信修炼手册:@elaine0622 写脚本处理

      本文标题:GATK4最佳实践-体细胞突变的检测与识别

      本文链接:https://www.haomeiwen.com/subject/miyysftx.html