在fastq水平:
FastUniq
ref官网: FastUniq download | SourceForge.net
使用:
建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。
1.建立一个list配置文件来存放你的测序数据路径:
/home/fanyc/xxx.fq
/home/fanyc/xxx.fq
2.命令:
fastuniq -i list -o xxx_R1.fq -p XXX_R2.fq -t q
-i :输入文件的格式
-t : 输出文件的格式
q : FASTQ format into TWO output files
f : FASTA format into TWO output files
p : FASTA format into ONE output file
default = q
ref博客:【T】每日一生信--FastUniq去除paired reads的duplicates_铁汉1990_新浪博客
在sam/bam水平:
picard
ref网站:Picard Tools - By Broad Institute
使用:
java -jar picard.jar MarkDuplicates \
I=xxx.sorted.bam \
O=xxx.sorted.markdup.bam \
M=xxx.markdup.txt
直接删除冗余:
java -jar picard.jar MarkDuplicates \
REMOVE_DUPLICATES =true \
I=xxx.sorted.bam \
O=xxx.sorted.markdup.bam \
M=xxx.markdup.txt
samtools
ref: samtools 使用说明
samtools markdup [-l length] [-r] [-s] [-T] [-S] in.algsort.bam out.bam
-l INT Expected maximum read length of INT bases. [300]
-r Remove duplicate reads.
-s Print some basic stats.
-T PREFIX Write temporary files to PREFIX.samtools.nnnn.mmmm.tmp
-S Mark supplementary reads of duplicates as duplicates.
需要四步:
samtools sort -n xxx.bam -o xxx.sort.bam
samtools fixmate -m xxx.sort.bam xxx.fixmate.bam
samtools sort xxx.fixmate.bam -o xxx.positionsort.bam
samtools markdup -r xxx.positionsort.bam xxx.markdup.bam
all:
samtools sort -n xxx.bam | samtools fixmate -m | samtools sort | samtools markdup -r > xxx.markdup.bam
网友评论