美文网首页
day19ChIP-seq 数据清洗

day19ChIP-seq 数据清洗

作者: meraner | 来源:发表于2022-06-02 11:19 被阅读0次

    一、trim_galore

    用来对fastq的raw数据进行清洗过滤,即过滤掉低质量数据,留下的就是clean数据啦。
    cutadapt 软件可以对NGS数据进行质量过滤
    FastQC 软件可以查看NGS数据的质量分布
    trim_galore将这两个软件封装到一起,使用起来更加方便。

    1.下载安装

    先确定一下这两个的版本

    zds209 14:22:34 ~$cutadapt --version
    1.18
    zds209 14:27:18 ~$fastqc -v
    FastQC v0.11.3
    wget -c https://github.com/FelixKrueger/TrimGalore/archive/0.6.0.tar.gz
    
    tar -vxzf TrimGalore-0.6.0.tar.gz 
    

    添加到环境变量就行啦。注意:用wincsp软件,在window环境下进行.bashrc的操作,添加变量最方便稳妥。

    2. 单端测序数据

    trim_galore --quality 20 -a AGATCGGAAGAGC --length 20 -o out_dir input.fq
    --quality 20 相当于常用的Q20过滤(详见day18)切除质量得分低于设定值的序列
    -a输入adapter序列。也可以不输入
    -o/--output_dir:输入目录 [需要提前建立目录,否则运行会报错]。
    --length 20 小于20bp的被去除。注意,在pe150下,可以50或36(默认20)。
    --fastqc #当分析结束后,使用默认选项对结果文件进行fastqc分析
    --gzip和--dont_gzip:清洗后的数据zip打包或者不打包。

    批量处理单端数据

    project=/data/zds209/ChIP-seqtest
    ls project/rawdata | grep "fastq.gz" > config_file cat config_file | while read id do output_dir="project/clean"
    trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 -o output_dirproject/rawdata/$id
    done

    处理双端数据

    project=~/ssresult
    trim_galore -q 25 --phred33 --stringency 3 --length 36  --paired $project/rawdata/B8D_L3_1005230.R1.fq.gz  $project/rawdata/B8D_L3_1005230.R2.fq.gz --gzip -o $project
    ```
    
    #批量处理双端数据
    
    

    project is the dir on the home with rawdata

    project=/data/zds209/ssresult
    ls project/rawdata | grep "R1" > gz1 lsproject/rawdata | grep "R2" > gz2
    paste gz1 gz2>config_file
    cat config_file | while read id
    do
    sample_dir="project/rawdata" output_dir="project/clean"
    arr=(id) fq1={arr[0]}
    fq2={arr[1]} sample_dir1="sample_dir/fq1" sample_dir2="sample_dir/fq2" trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -ooutput_dir sample_dir1sample_dir2
    done

    #二、conda 安装multiqc没成功
    通过环境配置,把网管的anaconda配置到自己的环境中了。conda list成功了。
    ##1. 问题:开始`conda install multiqc`不成功。
    可能是没配置镜像,但是配置过程中一直跳出来y/n这样奇怪的选项,而且conda info没有显示。
    解决办法:
    把home目录下.condarc删除,再输入
    

    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
    conda config --set show_channel_urls yes

    就成功了。conda info也有显示具体信息了。conda list也显示了很多已经有的包。但是没有multiqc。
    ##2. 安装multiqc
    输入 conda install multiqc,下载了一些文件,随后说没有安装权限。应该是conda目录是在data/software下,我是非root账户,没有权限啊。
    
    #三、pip安装multiqc
    `pip install multiqc` 安装成功了。到底pip和conda啥关系,为何会有不同呢?有待日后想明白。反正现在看是能用了。multiqc -help成功。注:现在已经通过pip安装了cutadapt和multiqc两个软件了。
    
    ![image.png](https://img.haomeiwen.com/i27995477/82236cec9b910125.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    
    #四、multiqc怎么用
    到fastqc的输出文件夹下,直接输入:`multiqc  ./`运行的很快。分分钟就有结果了。估计就是调用fastqc的现有数据,组一下结构。
    这个命令应该也可以整合到fastqc的脚本中去。
    
    ![image.png](https://img.haomeiwen.com/i27995477/2fe39c0702d70e2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    画面挺精美的啊。
    ![image.png](https://img.haomeiwen.com/i27995477/5b2a69d6fa1774a1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    

    相关文章

      网友评论

          本文标题:day19ChIP-seq 数据清洗

          本文链接:https://www.haomeiwen.com/subject/fofaprtx.html