美文网首页
【RNA-seq自学5】样品分析之去接头Trimmomatic

【RNA-seq自学5】样品分析之去接头Trimmomatic

作者: Brickvstar | 来源:发表于2020-07-06 15:42 被阅读0次
大量重复序列 接头含量

以上两张图是fastqc的结果,都表明样本序列中是含有接头序列的,adapter content的结果为fail。必须去接头才能进行下一部的序列比对、表达定量等等。Trimmomatic是一个可以用来处理Illumina公司raw reads,去掉接头adapters的软件。

安装

conda install trimmomatic


运行

trimmomatic PE -threads 4 -phred33 \   #双末端测序 4条线路 fastq的质量值编码格式

01raw_data/sample1_R1.fastq.gz 01raw_data/sample1_R2.fastq.gz  \   #输入文件

02clean_data/output_forward_paired.fq.gz \

02clean_data/output_forward_unpaired.fq.gz \

02clean_data/output_reverse_paired.fq.gz \

02clean_data/output_reverse_unpaired.fq.gz \

 ILLUMINACLIP:/root/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-PE-2.fa:2:30:10:1:true \   #打开接头文件

LEADING:3 TRAILING:3 \   #起始碱基质量阈值、末端质量阈值

SLIDINGWINDOW:4:20 MINLEN:50 TOPHRED33 #设定滑窗、最短read长度、设定过滤后的质量值

运行过程中,TruSeq3-PE-2.fa接头文件(adapters)总是出现file not found 。通过find命令【find / -name TruSeq3-PE-2.fa】就可以运行出TruSeq3-PE-2.fa文件的目录位置。adapters需要使用绝对路径。

过滤之后双端序列都保留的就是 paired,反之如果其中一端序列过滤之后被丢弃了另一端序列保留下来了就是 unpaired(即 成对的clean reads, 未成对的正向序列以及未成对的反向序列) 一般情况下,若paired reads百分比占90%以上,可只对paired reads进行比对分析

参考:https://www.jianshu.com/p/43b564783e32

相关文章

网友评论

      本文标题:【RNA-seq自学5】样品分析之去接头Trimmomatic

      本文链接:https://www.haomeiwen.com/subject/cggwqktx.html