MultiQC软件安装运行的过程

作者: 千万英里 | 来源:发表于2019-11-20 00:31 被阅读0次

1.MultiQC介绍

不少生信工具都可以给样品生成一个评估结果，如FastQC、Qualimap 和RSeQC等 (39个转录组分析工具，120种组合评估)。但是几乎所有的质控工具都是针对单个样本生成一个报告，用户自己要逐一查找各个QC结果，十分耗时、重复又复杂，而且还不能快速看出所有样本的异同。MultiQC就能将测序数据的多个QC结果整合成一个HTLM网页交互式报告，同时也能导出pdf文件
———
版权声明：本文为CSDN博主「生信宝典」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qazplm12_3/article/details/84550515

2.安装MultiQC

我们之前已经安装了Anaconda，因此安装MultiQC非常简单，直接在命令行中输入以下命令：

conda install -c biocondamultiqc

—报错1：执行安装命令的时候出现错误,没有conda了？？？

image.png

—解决报错1：尝试了多种方法无果，最后查到可能是当python版本发生更改时，会发生此问题。当初的anaconda安装是anaconda3 配的python环境是python27。当我们安装了一个新软件包，可能python27和其他一些软件包一起更新了。这可能破坏了anaconda的基本环境。只能重新安装anaconda了。

注意，以前的教程都是教一路yes下来的，但是会有隐患，特别是当你的服务器之前有安装过软件的话，conda会污染你原来的环境，把你原来设置好的东西进行更改。具体的惨痛教训请参见：
Anaconda is a snake.
所以在询问是否将conda加入环境变量的时候选择no。
作者：卖萌哥
链接：https://www.jianshu.com/p/edaa744ea47d
来源：简书

首先，我们需要删除旧的安装：

 rm -rf ~/anaconda3
 rm -rf ~/.condarc ~/.conda ~/.continuum

Anaconda安装：

此安装方法参照作者：卖萌哥
链接：https://www.jianshu.com/p/edaa744ea47d
来源：简书

注意在询问是否将conda加入环境变量的时候选择no
image.png
选择no之后，输入conda是会报找不到此命令的。那要如何启动呢？

cd到~/anaconda/bin目录下面，能看到有一个activate。

image.png
需要给activate添加一下权限才能使用
chmod 777 activate
image.png
启动conda
. ./activate

相关配置：参照老师之前的课程

配置

重新安装成功：

wwwww77@wwwww77-VirtualBox:~$ conda --version
conda 4.5.4

问题解决，再次运行`conda install -c bioconda multiqc`安装成功

MultiQC安装成功

MultiQC的使用说明

3.用multiQC同时对2个以上fastq文件的数据质量做出评价

（一).首先用FastQC对测序数据进行质量评估

wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ fastqc SRR6232298_1.fastq.gz SRR6232298_2.fastq.gz
运行结束后生成html和zip文件，html文件可下载到Windows通过网页查看

FastQC运行结果

（二).然后用MultiQc整合结果，指定MultiQC要分析的文件路径即可

wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ multiqc *_fastqc.zip
结果如下：

MultiQC运行结果
我们同样可以把multiqc_report.html文件下载到Windows上用网页查看。

image.png

(三).数据质量评价：

(1).General Statistics：每一个样本reads数量、比对层面的质量评估整合统计表，点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。

1
(2).FastQC：MultiQC将FastQC运行的结果全整合在一起了，方便我们查看

2
(3).Sequence Counts：每个样本的序列计数，重复read的计数是个估计值。黑色部分表示重复序列的占比。

3
(4). Sequence Quality Histograms：每个read各位置碱基的平均测序质量。质量分数=-10log10p（p代表错误率），所以当质量分数为40的时候，p就是0.0001。此时说明测序质量非常好。所以落在绿色区间—质量很好；橙色区间——质量合理；红色区间——质量不好。
此处可以看出SRR6232298_2样本在约220个碱基后的测序质量平均线落在红色区间，也就是测序质量不合格。

4
(5).Per Sequence Quality Scores：具有平均质量分数的reads的数量。
横坐标代表的是平均序列质量分数，纵坐标则是落在该区域的reads数。由此图中可以看出低质量reads占整体reads的比例（估算各颜色区域曲线下面积）
这两个样本的高质量read占的百分比较大，故测序质量合格。

5
(6).Per Base Sequence Content ：reads每个位置的颜色显示由4种颜色的比例混合而成，哪一个碱基的比例大，则趋近于这个碱基所代表的颜色，由此组成热图。上半部分是样本一，下半部分是样本二。由热图中可知：reads的前半部分大概14个bp左右的ATGC含量比例是非常不均匀的。

6

也可以分别查看样本中每个位置碱基出现的概率。

7

8
(7).Per Sequence GC Content ：横坐标代表的是GC含量百分比，纵坐标是数量

正常的样本的GC含量曲线会趋近于正态分布曲线。正常的样本的GC含量曲线会趋近于正态分布曲线，曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresented reads）。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

8
(8).Per Base N Content ：每条reads各位置N碱基含量比例。从图中可以看出我们的样本N碱基含量很少，说明比对质量很好

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”，统计N的比率。正常情况下，N值非常小。

9
(9).Sequence Length Distribution ：reads长度分布，当reads长度不一致时报”WARN”；当有长度为0的read时报“FAIL”。图中出现了黄色警告，表示reads长度不一致。

10
(10).Sequence Duplication Levels ：通过统计不同拷贝数的reads的频率得出每个序列的相对重复水平。通过图片我可以看出reads首端重复频率很高，质量不是很好。

一般来说，测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在。横坐标是duplication的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。

11
(11).Overrepresented sequences ：如果有某个序列大量出现,就叫做 overrepresented，fastqc 的标准是占全部 reads 的 0.1%以上。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报“FAIL”。结果显示这2 个样本的读取量少于 1%，这些读取由占值过多序列组成。

12
(12).Adapter Content ：接头含量。从图中来看我们的样本还存在一部分接头，后续我们还需要去除接头和质量不好的reads，去污染等操作来进行数据过滤。

13

参考资料来自：
conda的安装与使用（2019-6-28更新）
Multiqc（转录组分析之质量评估）
整合QC质控结果的利器——MultiQC

学习通有关FastQC的课程

网友评论

《生物软件及应用》课程笔记

本文标题：MultiQC软件安装运行的过程

本文链接：https://www.haomeiwen.com/subject/jfxiictx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

MultiQC软件安装运行的过程

1.MultiQC介绍

2.安装MultiQC

—报错1：执行安装命令的时候出现错误,没有conda了？？？

注意在询问是否将conda加入环境变量的时候选择no

选择no之后，输入conda是会报找不到此命令的。那要如何启动呢？

问题解决，再次运行`conda install -c bioconda multiqc`安装成功

MultiQC的使用说明

3.用multiQC同时对2个以上fastq文件的数据质量做出评价

（一).首先用FastQC对测序数据进行质量评估

（二).然后用MultiQc整合结果，指定MultiQC要分析的文件路径即可

(三).数据质量评价：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

《生物软件及应用》课程笔记

MultiQC软件安装运行的过程

1.MultiQC介绍

2.安装MultiQC

—报错1：执行安装命令的时候出现错误,没有conda了？？？

注意在询问是否将conda加入环境变量的时候选择no

选择no之后，输入conda是会报找不到此命令的。那要如何启动呢？

问题解决，再次运行conda install -c bioconda multiqc安装成功

MultiQC的使用说明

3.用multiQC同时对2个以上fastq文件的数据质量做出评价

（一).首先用FastQC对测序数据进行质量评估

（二).然后用MultiQc整合结果，指定MultiQC要分析的文件路径即可

(三).数据质量评价：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

《生物软件及应用》课程笔记

问题解决，再次运行`conda install -c bioconda multiqc`安装成功