详见视频
2015 GATK讲座 插入缺失的重新比对-科技-完整版视频在线观看-爱奇艺 (iqiyi.com)
目前新版的haplotype caller似乎不需要BQSR和indel realignment步骤,参考自科学网—WES学习笔记 - 赵加栋的博文 (sciencenet.cn)
的说法
一、目的
当序列与参考基因组进行比对时,在序列的末端时容易出错的。当比对软件错误地将序列比对到参考基因组时,插入缺失变异可能被掩盖。因此这些人为错配可能会在稍后的工作流程中,损害后面地碱基质量分数地重新校准和对变异地检测。
除非我们使用这个插入缺失变异重新比对才能减少那些错误。
二、如何重新比对:
基本原则是找到三种类型的重新比对的目标
1、看我们以前发现过的有插入缺失变异的已知位置
2、在序列比对到参考基因组过程中发现的插入缺失变异
3、有证据表明有隐藏的插入缺失变异的
因此可以通过熵计算找到这些位点,并基于寻找数量(就像一个特定区域的成簇的错配的数量)计算活动分数
image.png三、实施方案:
两个步骤
1、在GATK中使用RealignerTargetCreator(重新比对目标生成器的工具),它在基因组中确定的目标也就是我们要重新比对的基因组范围
2、实际用IndelRealigner的软件工具做重新比对的工作
image.png
A.预处理:a.采用bam文件,
b.已知的插入缺失变异的列表
然后使用RealinerTargetCreator,生成一个intervals文件(描述我们要做重新比对的位置)
a和b两个文件是可选的,可以其中一个,使用b文件会更快,但是可能会错过一些新的变异
B.原始bam文件 intervals文件 可能使用已知的插入缺失变异的列表
给IndelRealigner
而后输出一个bam文件
此过程的输入文件有几种可选的:
一,完全使用已知Indel的列表 很快但会错过一些变异
二,建议使用原始bam比对中看到的Indel,并且那将用到entropy measure。
三,如果你真的不能忍受错过任何潜在的变异,你可用完整的Smith-Waterman重比对方法(局部重比对) 最准确,但计算成本非常高
四、一个补充的说明.:
你可能会疑问,新版的软件是否需要这个过程?
haplotype caller有自己的重新比对过程,你可能会想,这里的重新比对步骤是否还有必要。但事实证明,流程中还有其他几个步骤,其Indel可以受到Indel realignment的影响,其中之一就是对碱基质量得分的重新校准。那么可能发生的是,这些假的SNP中的一些,可以对碱基质量分数的重新校准产生影响。
如果你仍需要传统工具,例如使用unifiedgenotyper判读变异,它仍是有用的,那么真的没有必要运行IndelRealigner.
并且对于RNA-seq,由于haplotype caller自然地处理RNA,似乎潜在地不是很有影响
网友评论