美文网首页
2020-06-19 GATK4 的最佳实践pipeline:

2020-06-19 GATK4 的最佳实践pipeline:

作者: 程凉皮儿 | 来源:发表于2020-06-19 09:46 被阅读0次

gatk4-germline-snps-indels

参考资料:https://github.com/gatk-workflows/gatk4-germline-snps-indels

Purpose :

Workflows for germline short variant discovery with GATK4.

haplotypecaller-gvcf-gatk :

haplotypecaller-gvcf-gatk4 workflow根据GATK最佳实践在单个样本上以GVCF模式运行GATK4 HaplotypeCaller工具。在执行时,workflow会使用间隔列表文件将HaplotypeCaller工具分散到输入bam示例上。workflow生成的输出将是单个GVCF文件,然后可以将该文件与其他几个GVCF文件一起提供给JointGenotyping workflow,以同时call variants,从而生成多样本VCF。当高效地call for variants in多个样本时,haplotypecaller-gvcf-gatk4 workflows默认的GVCF模式非常有用。但是,对于calling variants for one or a few samples,可以让工作流直接call variants,并通过将输入变量make_gvcf设置为false来输出VCF文件。

Requirements/expectations

  • 单个样本的一个可供分析的BAM文件(如RG:SM所示)
  • 包含一组用于分散的variant calling间隔列表的文件

Outputs

  • 一个GVCF文件及其索引

JointGenotyping.wdl :

该WDL实现了GATK人类全基因组测序(WGS)中种系SNP和Indel发现最佳实践的联合调用和VQSR过滤部分。该工作流需要具有50个或更多GVCF的sample map file,并生成multisample VCF。

注意:
- JointGenotyping-terra.wdl是原始workflow的略微修改版本,以支持对在Terra上运行workflow感兴趣的用户。这些更改包括dockers和disksize的变量,使配置workflow变得更容易。
- 在Terra上创建示例地图可能会很麻烦,请使用generate-sample-map为您创建一个。

Requirements/expectations

  • HaplotypeCaller在GVCF模式下生成的一个或多个GVCFs
  • 最少50个样品。不支持基因panels。

Outputs

  • VCF文件及其索引,使用具有输入VCF中存在的所有样本的基因型的可变质量分数(quality score)重新校准(VQSR)进行过滤。输入VCF中存在的所有位点都会保留;过滤后的位点会在过滤器字段(FILTER field)中进行注释。

Software version requirements :

  • GATK 4.1.4.0
  • Samtools 1.3.1
  • Python 2.7
  • Cromwell version support
    • Successfully tested on v37
    • Does not work on versions < v23 due to output syntax

IMPORTANT NOTE :

  • VQSR wiring。SNPINDEL模型是并行建立的,但随后会串联进行相应的重新校准。因为INDEL模型通常首先准备好(因为Indels比SNP少),所以我们将INDEL重新校准设置为首先应用于输入VCF,而SNP模型仍在构建中。到SNP模型可用时,INDEL重新校准的文件可用作应用SNP重新校准的输入。如果我们反其道而行之,我们将不得不等到SNP重新校准文件可用,尽管INDEL重新校准文件已经存在,然后应用SNP重新校准,然后应用INDEL重新校准。这将导致完整workflow执行的挂钟时间更长(a longer wall clock time)。Wiring the INDEL recalibration是首先要解决的问题。
  • 当前发布的"Generic germline short variant joint genotyping"的版本是从workflow的广泛生产版本派生出来的,该工作流程适用于多达20K样本的大型WGS callsets。我们相信,在单个WGS样本上运行此工作流的结果同样准确,但当工作流被修改并在小群体上运行时,可能会有一些缺点。具体地说,修改SNP应用重新校准步骤以获得更高的特异性可能并不有效。用户可以通过查阅收集的SNP部分文件来验证这是否是一个问题。如果最右侧列中列出的truthSensitivity与最左侧列中的targetTruthSensitivity不匹配,则从ApplyVQSR请求targetTruthSensitivity将不会使用准确的筛选阈值。此工作流程尚未在外显子(exomes)上进行测试。
    对基因组的动态散射区间(dynamic scatter interval)生成进行了优化。分散的SNP变量重新校准(scattered SNP VariantRecalibration)可能会因为构建负模型的两个“坏”variants而失败。另外,SNP重新校准的日志过于冗长。
  • JointGenotyping workflow没有等位基因子集
    • 对于较大的队列,即使是exome callsets在低复杂度/STR位点也可以有1000多个等位基因
    • 对于具有6个以上可选等位基因(默认情况下)的位点,将返回称为genotypes的基因型,但不返回PLs,因为PL数组变得非常庞大
    • 如果存在AS注释,则可以执行等位基因特定过滤,但数据仍将位于VCF中的一个巨大信息字段(giant INFO field)中
  • JointGenotyping的输出被分成许多碎片(shards)
  • 使用大型样本集的用户可以调用JointGenotyping.wdl工作流中的GnarlyGenotyper任务。但是,在GnarlyGenotyper可以适当处理之前,必须为HaplotypeCaller生产的所有GVCF运行ReblockGVCF测试工具。此处提供了应用重新阻止工具的工作流:ReblockGVCF-gatk4_exomes_goodCompression
  • GnarlyGenotyper使用QUAL指数近似值
    • GenotypeGVCFs相比,显著提高了性能,但是QUAL输出(因此QD注释)在这两个工具之间可能略有不一致
  • 提供的JSON是一个现成的工作流示例JSON模板。用户有责任使用GATK Tool and Tutorial Documentations正确设置参考和资源输入变量
  • 运行时参数针对Broad's Google Cloud平台实现进行了优化。
  • 有关在Google Cloud平台上或本地运行工作流的帮助,请查看以下教程:(How to) Execute Workflows from the gatk-workflows Git Organization
  • 有关我们的工作流和工具的更多文档,请访问User Guide网站。
  • 相关参考资料和资源包可在中访问Resource Bundle

Contact Us :

  • 以下材料由Broad Institute的数据科学平台论坛小组提供。请将任何问题或顾虑向我们的论坛网站之一:GATKTerra提出。

LICENSING :

版权所有Broad Institute, 2019 | BSD-3本脚本是根据wdl开放源代码许可证(bsd-3) (full license text at https://github.com/openwdl/wdl/blob/master/LICENSE)发布的。但是请注意,它调用的程序可能需要不同的许可证。用户负责在运行此脚本之前检查他们是否有权运行所有程序。

相关文章

网友评论

      本文标题:2020-06-19 GATK4 的最佳实践pipeline:

      本文链接:https://www.haomeiwen.com/subject/rinmxktx.html