gatk4-germline-snps-indels
参考资料:https://github.com/gatk-workflows/gatk4-germline-snps-indels
Purpose :
Workflows for germline short variant discovery with GATK4.
haplotypecaller-gvcf-gatk :
haplotypecaller-gvcf-gatk4 workflow根据GATK最佳实践在单个样本上以GVCF模式运行GATK4 HaplotypeCaller工具。在执行时,workflow会使用间隔列表文件将HaplotypeCaller工具分散到输入bam示例上。workflow生成的输出将是单个GVCF文件,然后可以将该文件与其他几个GVCF文件一起提供给JointGenotyping workflow,以同时call variants,从而生成多样本VCF。当高效地call for variants in多个样本时,haplotypecaller-gvcf-gatk4 workflows默认的GVCF模式非常有用。但是,对于calling variants for one or a few samples,可以让工作流直接call variants,并通过将输入变量make_gvcf
设置为false
来输出VCF文件。
Requirements/expectations
- 单个样本的一个可供分析的BAM文件(如RG:SM所示)
- 包含一组用于分散的variant calling间隔列表的文件
Outputs
- 一个GVCF文件及其索引
JointGenotyping.wdl :
该WDL实现了GATK人类全基因组测序(WGS)中种系SNP和Indel发现最佳实践的联合调用和VQSR过滤部分。该工作流需要具有50个或更多GVCF的sample map file,并生成multisample VCF。
注意:
-JointGenotyping-terra.wdl
是原始workflow的略微修改版本,以支持对在Terra
上运行workflow感兴趣的用户。这些更改包括dockers和disksize的变量,使配置workflow变得更容易。
- 在Terra上创建示例地图可能会很麻烦,请使用generate-sample-map为您创建一个。
Requirements/expectations
- HaplotypeCaller在GVCF模式下生成的一个或多个GVCFs
- 最少50个样品。不支持基因panels。
Outputs
- VCF文件及其索引,使用具有输入VCF中存在的所有样本的基因型的可变质量分数(quality score)重新校准(VQSR)进行过滤。输入VCF中存在的所有位点都会保留;过滤后的位点会在过滤器字段(
FILTER field
)中进行注释。
Software version requirements :
- GATK 4.1.4.0
- Samtools 1.3.1
- Python 2.7
- Cromwell version support
- Successfully tested on v37
- Does not work on versions < v23 due to output syntax
IMPORTANT NOTE :
- VQSR wiring。
SNP
和INDEL
模型是并行建立的,但随后会串联进行相应的重新校准。因为INDEL
模型通常首先准备好(因为Indels比SNP少),所以我们将INDEL
重新校准设置为首先应用于输入VCF,而SNP模型仍在构建中。到SNP模型可用时,INDEL重新校准的文件可用作应用SNP重新校准的输入。如果我们反其道而行之,我们将不得不等到SNP重新校准文件可用,尽管INDEL重新校准文件已经存在,然后应用SNP重新校准,然后应用INDEL重新校准。这将导致完整workflow执行的挂钟时间更长(a longer wall clock time)。Wiring the INDEL recalibration是首先要解决的问题。 - 当前发布的"Generic germline short variant joint genotyping"的版本是从workflow的广泛生产版本派生出来的,该工作流程适用于多达20K样本的大型WGS callsets。我们相信,在单个WGS样本上运行此工作流的结果同样准确,但当工作流被修改并在小群体上运行时,可能会有一些缺点。具体地说,修改SNP应用重新校准步骤以获得更高的特异性可能并不有效。用户可以通过查阅收集的SNP部分文件来验证这是否是一个问题。如果最右侧列中列出的
truthSensitivity
与最左侧列中的targetTruthSensitivity
不匹配,则从ApplyVQSR
请求targetTruthSensitivity
将不会使用准确的筛选阈值。此工作流程尚未在外显子(exomes)上进行测试。
对基因组的动态散射区间(dynamic scatter interval)生成进行了优化。分散的SNP变量重新校准(scattered SNPVariantRecalibration
)可能会因为构建负模型的两个“坏”variants而失败。另外,SNP重新校准的日志过于冗长。 -
JointGenotyping
workflow没有等位基因子集- 对于较大的队列,即使是exome callsets在低复杂度/STR位点也可以有1000多个等位基因
- 对于具有6个以上可选等位基因(默认情况下)的位点,将返回称为genotypes的基因型,但不返回
PLs
,因为PL数组变得非常庞大 - 如果存在AS注释,则可以执行等位基因特定过滤,但数据仍将位于VCF中的一个巨大信息字段(giant
INFO field
)中
-
JointGenotyping
的输出被分成许多碎片(shards)- 适合在Hail中使用
- 可以使用GatherVcfs来组合碎片。
- 使用大型样本集的用户可以调用
JointGenotyping.wdl
工作流中的GnarlyGenotyper
任务。但是,在GnarlyGenotyper
可以适当处理之前,必须为HaplotypeCaller
生产的所有GVCF运行ReblockGVCF测试工具。此处提供了应用重新阻止工具的工作流:ReblockGVCF-gatk4_exomes_goodCompression -
GnarlyGenotyper
使用QUAL指数近似值- 与
GenotypeGVCFs
相比,显著提高了性能,但是QUAL输出(因此QD注释)在这两个工具之间可能略有不一致
- 与
- 提供的JSON是一个现成的工作流示例JSON模板。用户有责任使用GATK Tool and Tutorial Documentations正确设置参考和资源输入变量
- 运行时参数针对Broad's Google Cloud平台实现进行了优化。
- 有关在Google Cloud平台上或本地运行工作流的帮助,请查看以下教程:(How to) Execute Workflows from the gatk-workflows Git Organization。
- 有关我们的工作流和工具的更多文档,请访问User Guide网站。
- 相关参考资料和资源包可在中访问Resource Bundle。
Contact Us :
LICENSING :
版权所有Broad Institute, 2019 | BSD-3本脚本是根据wdl开放源代码许可证(bsd-3) (full license text at https://github.com/openwdl/wdl/blob/master/LICENSE)发布的。但是请注意,它调用的程序可能需要不同的许可证。用户负责在运行此脚本之前检查他们是否有权运行所有程序。
网友评论