接着上一篇讲,已经完成了samtools的sort操作,得到了sorted.bam文件。接下来可以用picard MarkDuplicates进行标记并且可以去除这些duplication。
这一步的目的是为了去除在PCR中的重复read,这一步会生成2个文件,一个是dedup.bam文件,另一个是dedup.metrics文件,这个metrics文件里面包含了duplication的一些统计信息。(用GATK调用的原理也是一样的,GATK也会调用Picard进行去标记重复)
基本的用法:
java -jar $picard MarkDuplicates \
INPUT=sorted_sample1.bam \
OUTPUT=dedup_sample1.bam \
METRICS_FILE=metrics_sample1.txt
java -jar $gatk MarkDuplicates\
-I sample1.sorted.bam
-O sample1.rmdup.bam
-M metrics_sample1.txt
但是在这一步的时候就开始出现各种奇怪的bug.
error.log信息
这个shudown in progress 的错误真的很奇怪,起初以为是大型机抽风了,但是程序重跑了几遍之后,还是一样的结果。Picard都自动的停了,所以开始往回头倒腾哪一步出错了。
在和大神沟通了之后,发现一个很致命的问题,就是参考基因组的index的出现了问题,因为index的排序不对导致后续的文件会出错!!!!!
hg38.fa.fai的信息
之前我建立的index并没有从chr1开始,而是直接是chr10所以,index的错误导致我这几天跑的数据得重新跑一遍,期待这次的可以成功!
网友评论