局部重比对
局部重比对的目的是将BWA比对过程中所发现有 潜在序列插入或者序列删除(insertion和deletion,简称Indel)的区域进行重新校正。为什么??https://www.jianshu.com/p/859c0345624c
Smith-Waterman算法
第一步,RealignerTargetCreator ,目的是定位出所有需要进行序列重比对的目标区域。
第二步,IndelRealigner,对所有在第一步中找到的目标区域运用算法进行序列重比对,最后得到捋顺了的新结果。
但是,如果使用GATK HaplotypeCaller模块就不需要进行上述步骤。
重新校正碱基质量值(BQSR)
在WGS分析中,变异检测是一个极度依赖测序碱基质量值的步骤。因为这个质量值是衡量我们测序出来的这个碱基到底有多正确的重要(甚至是唯一)指标。
第一步,BaseRecalibrator,这里计算出了所有需要进行重校正的read和特征值,然后把这些信息输出为一份校准表文件(sample_name.recal_data.table)
第二步,PrintReads,这一步利用第一步得到的校准表文件(sample_name.recal_data.table)重新调整原来BAM文件中的碱基质量值,并使用这个新的质量值重新输出一份新的BAM文件。
注意,因为BQSR实际上是为了(尽可能)校正测序过程中的系统性错误,因此,在执行的时候是按照不同的测序lane或者测序文库来进行的,这个时候@RG信息(BWA比对时所设置的)就显得很重要了,算法就是通过@RG中的ID来识别各个独立的测序过程,这也是我开始强调其重要性的原因。

虽然不需要进行重比对和BQSR,但是还是练习一下。

之后不使用大肠杆菌序列的时候再使用这两个功能练习吧。
网友评论