美文网首页
Trimmomatic对下机数据进行质控

Trimmomatic对下机数据进行质控

作者: 吕强强学生信 | 来源:发表于2022-04-27 16:36 被阅读0次

    要对下机数据做质控,去接头,去除低质量碱基序列,之前总是用trimmomatic,发现学校服务器上没有这个软件,只好再重新下载、安装,重新学习一下当时用的参数都是啥意思,能不能再优化一下。

    附:实验室老师用的是另一款质控、剪切一条龙的软件fastp,查了一下fastp, 优点蛮多的,鉴于时间比较紧张,先不比较两者对结果的影响了。

    一、软件下载及安装

      下载地址

         http://www.usadellab.org/cms/index.php?page=trimmomatic

         unzip解压完后就能用了

    二、软件运行

         Trimmomatic是一个Java程序,需要java运行,先上我的脚本:

    因为我是批处理,fastq_List.txt文件中按行(一行一个reads.fq.gz文件)存储着我需要处理的序列名字,比如sample1_R1.fq.gz,下一行为sample1_R2.fq.gz

    常用参数:

    PE: 双端测序

    -threads 线程数,最大是CPU核数;

    -Phred33 设置碱基的质量格式,使用phred + 33phred + 64质量分数,这取决于使用的Illumina管道,默认-phred64,自v0.32版本之后可自动识别是phred33还是phred64

    -trimlog 生成日志名,建议不开这个参数,生成的log文件巨大且大多数情况下,你是不会看的;

    -basein 指定输入路径及文件,需要R1R2在同一目录下,且命名一样;

    -baseout  指定输出路径及文件,结果命名会一样;

    以下参数很重要,需要根据自己情况进行设定:

    ILLUMINACLIP: reads中剪切adapter和其他Illumina特定序列,按照你的数据选择接头文件列表,TruSeq3对应HiSeqMiSeq

    TruSeq2 (as used inGAII machines)

    TruSeq3 (as used byHiSeq and MiSeq machines),

    这里需要注意一下ILLUMINACLIP的位置,由于版本,平台等问题,接头文件的位置不一定相同,最好用Everything这个软件找一下,填上正确的文件路径。

    SLIDINGWINDOW:执行滑动窗口修剪,一旦窗口内的平均质量低于阈值,则切割。

    <windowSize>:<requiredQuality>,对应两个参数窗口大小(碱基数)和对应碱基序列的质量。一般就是415,除非数据质量实在是很差时需要自己再去调整。

    LEADING:如果低于阈值质量,则在reads起始处剪切碱基,因为机器对初始几个序列检测不太准,一般默认依次把质量低于3的碱基切掉;

    TRAILING:如果低于阈值质量,则在reads末尾处剪切碱基,不过没必要。尤其是当你数据是双端测序结果的时候(我设置了,影响不大,之前几批数据都设置了,为了保持一致,这次也懒的删了,算上这次,这是第三次安装这个软件了,这次才注意到这个问题,惭愧)

    CROP:将reads从末尾切割为指定长度,也就是直接从中间切断丢弃尾部序列,慎用;

    HEADCROP:从reads剪切后低于指定长度,切掉头部对应碱基数并丢弃,同样,慎用;

    MINLEN:如果reads低于指定长度,则删除

    三、结果

    PE 模式的两个输入文件,四个输出文件:

    sample_paired_R1.clean.fastq    

    sample_unpaired_R1.clean.fastq

    sample_paired_R1.clean.fastq    

    sample_unpaired_R1.clean.fastq

     

    本文使用 文章同步助手 同步

    相关文章

      网友评论

          本文标题:Trimmomatic对下机数据进行质控

          本文链接:https://www.haomeiwen.com/subject/axklyrtx.html