美文网首页
2021-05-23 批量下载sra文件及转换为fastq

2021-05-23 批量下载sra文件及转换为fastq

作者: xiaoguolaile | 来源:发表于2021-05-23 09:08 被阅读0次

    数据下载

    for ((i=594;i<=670;i++));
    do
    wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP105/SRP105176/SRR5479$i/SRR5479$i.sra;
    done &
    
    

    数据转换

    ls *sra |while read id;
    do
    /home/chen/sratoolkit.2.8.2-ubuntu64/bin/fastq-dump --gzip --split-3 $id;
    done &
    

    数据质控

    # Fastqc 进行质控
    ls *fq | while read id; do fastqc -t 4 $id; done &
    
    # multiqc:质控结果批量查看
    multiqc *fastqc.zip --export &
    

    数据过滤

    ## trimmomatic 
    
    # 安装 trimmomatic
    wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip &
    unzip Trimmomatic-0.38.zip
    
    # 数据清理
    # -threads 设置多线程运行
    java -jar "/data/chen/biosoft/Trimmomatic-0.38/trimmomatic-0.38.jar" PE -threads 2 -phred33 \
    
    # 2个输入文件
    ${name}_1.fq.gz ${name}_2.trim.fq.gz \
    
    # 4个输出文件
    ${name}_R1.clean.fq.gz ${name}_R1.unpaired.fq.gz \
    ${name}_R2.clean.fq.gz ${name}_R2.unpaired.fq.gz \
    
    # ILLUMINACLIP:去接头
    # "$adapter"/Exome.fa :adapter 序列的 fasta 文件
    # 2:16 个碱基长度的种子序列中可以有 2 个错配
    # 30:采用回文模式时匹配得分至少为30 (约50个碱基)
    # 10:采用简单模式时匹配得分至少为10 (约17个碱基)
    ILLUMINACLIP:"$adapter"/Exome.fa:2:30:10 \
    
    # LEADING:3,从序列的开头开始去掉质量值小于 3 的碱基;
    # TRAILING:3,从序列的末尾开始去掉质量值小于 3 的碱基;
    # SLIDINGWINDOW:4:15,从 5' 端开始以 4 bp 的窗口计算碱基平均质量,
    # 如果此平均值低于 15,则从这个位置截断 read;
    # HEADCROP:<length> 在reads的首端切除指定的长度;
    # MINLEN:36, 如果 reads 长度小于 36 bp 则扔掉整条 read。
    LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 HEADCROP:10 MINLEN:36
    
    

    相关文章

      网友评论

          本文标题:2021-05-23 批量下载sra文件及转换为fastq

          本文链接:https://www.haomeiwen.com/subject/tmmajltx.html