Sentieon软件忠于BWA、GATK、MuTect、MuTect2、STAR、Minimap2金标准的数学模型,在保证结果完全匹配GATK/BWA金标准的前提下,分析效率提升10倍以上。Sentieon为大群组项目提供一站式Joint Calling解决方案,最大可处理10万个WGS样本的Joint Calling,无需中间步骤。为了方便用户自定义BAM流程,Sentieon提供了Python API Engine。提供UMI模块,替代Fgbio/picard,在更高精度的条件下UMI分析速度提升20倍。提供替代STAR的加速模块,为单细胞测序RNA-seq提供加速计算。
@毅硕科技 整理了日常测试-试用Sentieon软件过程中常见问题的解答列表,方便大家更快速的上手Sentieon软件,应用于遗传变异、体细胞变异、肿瘤NGS分析等方向。
Sentieon软件常用的链接
Q: 请问我去哪里下载Sentieon软件和手册?
A: 您可以到以下链接下载最新版的Sentieon软件和使用手册?
https://share.weiyun.com/HzAXQoGH
Q: 请问有中文的软件技术支持吗?
A 您可以登录一下网站了解Sentieon软件的中文支持:
https://www.insvast.com/sentieon
Q: 请问Sentieon的模块和GATK模块有哪些版本对应:
A: 关于这个问题,您可以访问Sentieon的对应GATK的说明:
https://support.sentieon.com/appnotes/arguments
Q: 使用Sentieon软件进行NGS分析时,有推荐的pipeline脚本吗?
A: 您可以访问GitHub上由Sentieon官方维护的示例脚本,在此提示,这些脚本参数仅作为参考,具体样本类型和分析情况要咨询技术支持人员:
https://github.com/Sentieon/sentieon-scripts/tree/master/example_pipelines
Sentieon功能的问题
Q: panel用DNAscope比dnaseq更加准确是吗?
A: DNAscope的训练集中不包括100x以上的高深度区域,在改进DNAscope之前,panel样本还是推荐使用DNAseq。100X以内的人类WGS/WES,推荐使用DNAscope,不但效率更高,在准确率上也有更好的表现。
Q: 想咨询一下,我目前使用201911版本,这个--umi_post_process的参数是在哪个版本加入的?测试时候会报错:sort: unrecognized option '--umi_post_process'
Sentieon UMI报错A: 您可以转至链接:https://share.weiyun.com/HzAXQoGH,使用新版本,具体-umi_post_process可以参考下图:
Q:以下脚本可以跑 tumor only吗?
sentieon driver -t 40 -r $GENOME \
-i ./6.realign/${sample}_realigned.bam -q ./7.BQSR/${sample}.recal.table \
--algo TNhaplotyper2 --tumor_sample ${sample} \
--germline_vcf $gnomad \
./8.PON/${sample}_output-tnhap2-tmp.vcf.gz \
A: 是的,只有tumor样本,所以是tumor-only。如果是WES或是panel的话,还要在driver后,--algo前,加上--interval [interval.BED]参数,只看interval区域。
Q: sentieon的BQSR输出文件会比gatk4更大吗?8个G的bam跑完BQSR输出文件有22G.
A: GATK4的BQSR把对INDEL 校正的步骤给省略了,所以它的BQSR之后的BAM没有BI/BD tag。Sentieon 的BQSR依然会对SNP和INDEL都做校正,所以输出的BQSR会大很多。我们一般建议存储校正前的BAM和BQSR的table,而不是BQSR之后的BAM,这样可以大大节约存储空间,而且Sentieon的callers都可以同时读入校正前BAM和BQSR table,所以不需要生成校正后的BAM.
Q: 就是只生存矫正后的recal.table吗?
A: 嗯,因为这个table会小很多。然后在跑Sentieon的caller时,在-i参数输入校正前BAM的后面,用-q参数把这个table输入进去。最后再提醒一下,如果-i输入的是已经校正之后的BAM,就不要再输入-q了,否则就会做两次校正,结果就错了。
Q: Base quality score recalibration (skip for panels) 请问panel为什么要跳过BQSR呢?
A: BQSR只推荐在WGS上使用,有正面效果。
Q: 请教一个问题,我在用sentieon提供的数据做测试时,运行sentieon_quickstart.sh,有结果产出,但是run.log里面报错
ERROR: ld.so: object '/usr/lib64/libjemalloc.so.2' from LD_PRELOAD cannot be preloaded: ignored.
A: 因为系统没有安装jemalloc包,可以参考: https://support.sentieon.com/appnotes/jemalloc/
Q: 关于Sentieon BWA的内存占用问题,用500多Mb基因组数据测试的结果是开源bwa和sentieon bwa内存消耗差别不大。但是最近跑了一个小麦的基因组,Sentieon BWA比开源BWA内存开销多20G左右。
A: 默认情况下 Sentieon BWA 比开源BWA消耗的内存是要大,但是Sentieon BWA的速度是开源BWA的两倍,并且Sentieon BWA的内存可以通过设置环境变量bwt_max_mem来调节。Linux系统下Sentieon BWA默认会使用24 GB左右的内存。一般系统内存都会比24G大,所以即使消耗更多内存也在系统可以承受的范围内。如果需要减少BWA内存,可以设置bwt_max_mem环境变量,但是速度也会受影响。具体可以参考:
https://support.sentieon.com/manual/usages/general/#controlling-memory-usage-in-bwa
Q: 用什么工具对GATK和Sentieon的Haplotype输出的vcf结果进行比对?有具体的脚本吗?
A: 推荐使用 hap.py 工具对GATK和Sentieon输出的vcf结果文件进行比较,hap.py软件安装及使用说明请参考:https://github.com/Illumina/hap.py
比较的脚本请参考:
hap.py \
GATK.vcf.gz \
Sentieon.vcf.gz \
-o output_dir \
-r Homo_sapiens_assembly38.fasta \
--engine=vcfeval \
--engine-vcfeval-template hs38.sdf
Q: algo Haplotyper中的参数:
--call_conf
--emit_conf
是怎么计算的?用来达到什么目的?
A: 这两个参数对应GATK HaplotypeCaller的-stand_emit_conf 和 -stand_call_conf,其它参数对应关系可以参考https://support.sentieon.com/appnotes/arguments/#haplotypecaller-halotyper ,默认值都是30
Q: 想查一下现在已经调用Sentieon的线程数和还剩多少线程数可以用,怎么查?
A: 已经调用的不好查,但是剩余的可以用命令sentieon licclnt query --server HOST:PORT klib命令来查看(注意修改HOST和PORT为真实的IP地址和端口)。license文件里会有线程数总数,然后两个一减就是已经调用的。
Q: 如果肿瘤全基因组数据没有正常对照,Sentieon有对应的calling 突变的流程吗?
A: Sentieon是支持tumor only流程的。
网友评论