1.MultiQC介绍
不少生信工具都可以给样品生成一个评估结果,如FastQC、Qualimap 和RSeQC等 (39个转录组分析工具,120种组合评估)。但是几乎所有的质控工具都是针对单个样本生成一个报告,用户自己要逐一查找各个QC结果,十分耗时、重复又复杂,而且还不能快速看出所有样本的异同。MultiQC就能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件
———
版权声明:本文为CSDN博主「生信宝典」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qazplm12_3/article/details/84550515
2.安装MultiQC
我们之前已经安装了Anaconda,因此安装MultiQC非常简单,直接在命令行中输入以下命令:
conda install -c biocondamultiqc
—报错1:执行安装命令的时候出现错误,没有conda了???
image.png—解决报错1:尝试了多种方法无果,最后查到可能是当python版本发生更改时,会发生此问题。当初的anaconda安装是anaconda3 配的python环境是python27。当我们安装了一个新软件包,可能python27和其他一些软件包一起更新了。这可能破坏了anaconda的基本环境。只能重新安装anaconda了。
注意,以前的教程都是教一路yes下来的,但是会有隐患,特别是当你的服务器之前有安装过软件的话,conda会污染你原来的环境,把你原来设置好的东西进行更改。具体的惨痛教训请参见:
Anaconda is a snake.
所以在询问是否将conda加入环境变量的时候选择no。
作者:卖萌哥
链接:https://www.jianshu.com/p/edaa744ea47d
来源:简书
- 首先,我们需要删除旧的安装:
rm -rf ~/anaconda3 rm -rf ~/.condarc ~/.conda ~/.continuum
- Anaconda安装:
此安装方法参照作者:卖萌哥
链接:https://www.jianshu.com/p/edaa744ea47d
来源:简书注意在询问是否将conda加入环境变量的时候选择no
image.png选择no之后,输入conda是会报找不到此命令的。那要如何启动呢?
cd到~/anaconda/bin目录下面,能看到有一个activate。
image.png
需要给activate添加一下权限才能使用
chmod 777 activate
image.png
启动conda
. ./activate
-
相关配置:参照老师之前的课程
配置
- 重新安装成功:
wwwww77@wwwww77-VirtualBox:~$ conda --version
conda 4.5.4
问题解决,再次运行conda install -c bioconda multiqc
安装成功
MultiQC安装成功
MultiQC的使用说明
3.用multiQC同时对2个以上fastq文件的数据质量做出评价
(一).首先用FastQC对测序数据进行质量评估
wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ fastqc SRR6232298_1.fastq.gz SRR6232298_2.fastq.gz
运行结束后生成html和zip文件,html文件可下载到Windows通过网页查看
(二).然后用MultiQc整合结果,指定MultiQC要分析的文件路径即可
wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ multiqc *_fastqc.zip
结果如下:
我们同样可以把multiqc_report.html文件下载到Windows上用网页查看。
image.png
(三).数据质量评价:
(1).General Statistics:每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。
(2).FastQC:MultiQC将FastQC运行的结果全整合在一起了,方便我们查看
2
(3).Sequence Counts:每个样本的序列计数,重复read的计数是个估计值。黑色部分表示重复序列的占比。 3
(4). Sequence Quality Histograms:每个read各位置碱基的平均测序质量。质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。所以落在绿色区间—质量很好;橙色区间——质量合理;红色区间——质量不好。
此处可以看出SRR6232298_2样本在约220个碱基后的测序质量平均线落在红色区间,也就是测序质量不合格。
4
(5).Per Sequence Quality Scores:具有平均质量分数的reads的数量。
横坐标代表的是平均序列质量分数,纵坐标则是落在该区域的reads数。由此图中可以看出低质量reads占整体reads的比例(估算各颜色区域曲线下面积)
这两个样本的高质量read占的百分比较大,故测序质量合格。
5
(6).Per Base Sequence Content :reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色,由此组成热图。上半部分是样本一,下半部分是样本二。由热图中可知:reads的前半部分大概14个bp左右的ATGC含量比例是非常不均匀的。
6
也可以分别查看样本中每个位置碱基出现的概率。
8
(7).Per Sequence GC Content :横坐标代表的是GC含量百分比,纵坐标是数量
8正常的样本的GC含量曲线会趋近于正态分布曲线。正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
(8).Per Base N Content :每条reads各位置N碱基含量比例。从图中可以看出我们的样本N碱基含量很少,说明比对质量很好
9当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。
(9).Sequence Length Distribution :reads长度分布,当reads长度不一致时报”WARN”;当有长度为0的read时报“FAIL”。图中出现了黄色警告,表示reads长度不一致。
10
(10).Sequence Duplication Levels :通过统计不同拷贝数的reads的频率得出每个序列的相对重复水平。通过图片我可以看出reads首端重复频率很高,质量不是很好。
11一般来说,测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。
(11).Overrepresented sequences :如果有某个序列大量出现,就叫做 overrepresented,fastqc 的标准是占全部 reads 的 0.1%以上。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报“FAIL”。结果显示这2 个样本的读取量少于 1%,这些读取由占值过多序列组成。
12
(12).Adapter Content :接头含量。从图中来看我们的样本还存在一部分接头,后续我们还需要去除接头和质量不好的reads,去污染等操作来进行数据过滤。
13
参考资料来自:
conda的安装与使用(2019-6-28更新)
Multiqc(转录组分析之质量评估)
整合QC质控结果的利器——MultiQC
学习通有关FastQC的课程
网友评论