整体流程是Trimmomatic+bwa+samtools+picardtools+GATK
GATK4.0之前之前的版本是不包括picard的,这里我们用的是GATK3.8。
1.原始数据处理Trimmomatic
Trimmomatic是illumina平台的数据处理工具。设计用于修建测序产生的接头序列,其他平台的数据例如 Iron torrent ,PGM 测序数据可以用 fastx_toolkit 、NGSQC toolkit 来过滤。
Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。
另外也支持 phred-33 和 phred-64 格式互相转化,现在之所以会出现 phred-33 和 phred-64 格式的困惑,都是 Illumina 公司的锅,不过现在绝大部分 Illumina 平台的产出数据也都转为使用 phred-33 格式了,我们用的也是phred-33 格式。
Trimmomatic参数的含义如下
ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列,并决定是否去除反向互补的 R1/R2 中的 R2。
SLIDINGWINDOW: 从 reads 的 5' 端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。
MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。
LEADING: 从 reads 的开头切除质量值低于阈值的碱基。
TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。
CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。
HEADCROP: 从 reads 的开头切掉指定数量的碱基。
MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。
AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。
TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。
TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64
2.变异检测前准备bwa+samtool+PICARD
①bwa+samtool>.bam文件
②PICARD SortSam
③PICARD MarkDuplicates,标记测序pcr产生的重复序列,可设置参数直接去除REMOVE_DUPLICATES=true
3.GATK变异检测
转自gatk4流程
1)碱基矫正
这里同样包含了两个步骤:
第一步,BaseRecalibrator,这里计算出了所有需要进行重校正的read和特征值,然后把这些信息输出为一份校准表文件(sample_name.recal_data.table)
第二步,PrintReads,这一步利用第一步得到的校准表文件(sample_name.recal_data.table)重新调整原来BAM文件中的碱基质量值,并使用这个新的质量值重新输出一份新的BAM文件。
注意,因为BQSR实际上是为了(尽可能)校正测序过程中的系统性错误,因此,在执行的时候是按照不同的测序lane或者测序文库来进行的,这个时候@RG信息(BWA比对时所设置的)就显得很重要了,算法就是通过@RG中的ID来识别各个独立的测序过程,这也是我开始强调其重要性的原因
-R 参考序列
-I 输入文件
-T 工具
--knownSites BQSR工具中指定已知变异位点对应的vcf文件
-nct线程
-O输出文件
-BQSR 输入BaseRecalibrator工具的输出文件
--knownSites BQSR工具中指定已知变异位点对应的vcf文件
-nct线程
-O输出文件
-BQSR 输入BaseRecalibrator工具的输出文件
2)HaplotypeCaller进行变异检测
引用出处已表明,如有不妥,请联系我删除。
网友评论