一、trim_galore
用来对fastq的raw数据进行清洗过滤,即过滤掉低质量数据,留下的就是clean数据啦。
cutadapt
软件可以对NGS数据进行质量过滤
FastQC
软件可以查看NGS数据的质量分布
trim_galore将这两个软件封装到一起,使用起来更加方便。
1.下载安装
先确定一下这两个的版本
zds209 14:22:34 ~$cutadapt --version
1.18
zds209 14:27:18 ~$fastqc -v
FastQC v0.11.3
wget -c https://github.com/FelixKrueger/TrimGalore/archive/0.6.0.tar.gz
tar -vxzf TrimGalore-0.6.0.tar.gz
添加到环境变量就行啦。注意:用wincsp软件,在window环境下进行.bashrc的操作,添加变量最方便稳妥。
2. 单端测序数据
trim_galore --quality 20 -a AGATCGGAAGAGC --length 20 -o out_dir input.fq
--quality 20 相当于常用的Q20过滤(详见day18)切除质量得分低于设定值的序列
-a输入adapter序列。也可以不输入
-o/--output_dir:输入目录 [需要提前建立目录,否则运行会报错]。
--length 20 小于20bp的被去除。注意,在pe150下,可以50或36(默认20)。
--fastqc #当分析结束后,使用默认选项对结果文件进行fastqc分析
--gzip和--dont_gzip:清洗后的数据zip打包或者不打包。
批量处理单端数据
project=/data/zds209/ChIP-seqtest
ls project/clean"
trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 -o project/rawdata/$id
done
处理双端数据
project=~/ssresult
trim_galore -q 25 --phred33 --stringency 3 --length 36 --paired $project/rawdata/B8D_L3_1005230.R1.fq.gz $project/rawdata/B8D_L3_1005230.R2.fq.gz --gzip -o $project
```
#批量处理双端数据
project is the dir on the home with rawdata
project=/data/zds209/ssresult
ls project/rawdata | grep "R2" > gz2
paste gz1 gz2>config_file
cat config_file | while read id
do
sample_dir="project/clean"
arr=({arr[0]}
fq2=sample_dir/sample_dir/output_dir sample_dir2
done
#二、conda 安装multiqc没成功
通过环境配置,把网管的anaconda配置到自己的环境中了。conda list成功了。
##1. 问题:开始`conda install multiqc`不成功。
可能是没配置镜像,但是配置过程中一直跳出来y/n这样奇怪的选项,而且conda info没有显示。
解决办法:
把home目录下.condarc删除,再输入
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
就成功了。conda info也有显示具体信息了。conda list也显示了很多已经有的包。但是没有multiqc。
##2. 安装multiqc
输入 conda install multiqc,下载了一些文件,随后说没有安装权限。应该是conda目录是在data/software下,我是非root账户,没有权限啊。
#三、pip安装multiqc
`pip install multiqc` 安装成功了。到底pip和conda啥关系,为何会有不同呢?有待日后想明白。反正现在看是能用了。multiqc -help成功。注:现在已经通过pip安装了cutadapt和multiqc两个软件了。
![image.png](https://img.haomeiwen.com/i27995477/82236cec9b910125.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
#四、multiqc怎么用
到fastqc的输出文件夹下,直接输入:`multiqc ./`运行的很快。分分钟就有结果了。估计就是调用fastqc的现有数据,组一下结构。
这个命令应该也可以整合到fastqc的脚本中去。
![image.png](https://img.haomeiwen.com/i27995477/2fe39c0702d70e2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
画面挺精美的啊。
![image.png](https://img.haomeiwen.com/i27995477/5b2a69d6fa1774a1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
网友评论