MultiQC软件安装运行的过程

作者: 千万英里 | 来源:发表于2019-11-20 00:31 被阅读0次

    1.MultiQC介绍

    不少生信工具都可以给样品生成一个评估结果,如FastQC、Qualimap 和RSeQC等 (39个转录组分析工具,120种组合评估)。但是几乎所有的质控工具都是针对单个样本生成一个报告,用户自己要逐一查找各个QC结果,十分耗时、重复又复杂,而且还不能快速看出所有样本的异同。MultiQC就能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件
    ———
    版权声明:本文为CSDN博主「生信宝典」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qazplm12_3/article/details/84550515

    2.安装MultiQC

    我们之前已经安装了Anaconda,因此安装MultiQC非常简单,直接在命令行中输入以下命令:

    conda install -c biocondamultiqc
    

    —报错1:执行安装命令的时候出现错误,没有conda了???

    image.png
    —解决报错1:尝试了多种方法无果,最后查到可能是当python版本发生更改时,会发生此问题。当初的anaconda安装是anaconda3 配的python环境是python27。当我们安装了一个新软件包,可能python27和其他一些软件包一起更新了。这可能破坏了anaconda的基本环境。只能重新安装anaconda了。

    注意,以前的教程都是教一路yes下来的,但是会有隐患,特别是当你的服务器之前有安装过软件的话,conda会污染你原来的环境,把你原来设置好的东西进行更改。具体的惨痛教训请参见:
    Anaconda is a snake.
    所以在询问是否将conda加入环境变量的时候选择no。
    作者:卖萌哥
    链接:https://www.jianshu.com/p/edaa744ea47d
    来源:简书

    • 首先,我们需要删除旧的安装:
       rm -rf ~/anaconda3
       rm -rf ~/.condarc ~/.conda ~/.continuum
      
    • Anaconda安装:

    此安装方法参照作者:卖萌哥
    链接:https://www.jianshu.com/p/edaa744ea47d
    来源:简书

    注意在询问是否将conda加入环境变量的时候选择no
    image.png
    选择no之后,输入conda是会报找不到此命令的。那要如何启动呢?

    cd到~/anaconda/bin目录下面,能看到有一个activate。

    image.png
    需要给activate添加一下权限才能使用
    chmod 777 activate
    image.png
    启动conda
    . ./activate
    • 相关配置:参照老师之前的课程


      配置
    • 重新安装成功:
    wwwww77@wwwww77-VirtualBox:~$ conda --version
    conda 4.5.4
    

    问题解决,再次运行conda install -c bioconda multiqc安装成功

    MultiQC安装成功

    MultiQC的使用说明

    3.用multiQC同时对2个以上fastq文件的数据质量做出评价

    (一).首先用FastQC对测序数据进行质量评估

    wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ fastqc SRR6232298_1.fastq.gz SRR6232298_2.fastq.gz
    运行结束后生成html和zip文件,html文件可下载到Windows通过网页查看

    FastQC运行结果

    (二).然后用MultiQc整合结果,指定MultiQC要分析的文件路径即可

    wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ multiqc *_fastqc.zip
    结果如下:

    MultiQC运行结果
    我们同样可以把multiqc_report.html文件下载到Windows上用网页查看。
    image.png

    (三).数据质量评价:

    (1).General Statistics:每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。

    1
    (2).FastQC:MultiQC将FastQC运行的结果全整合在一起了,方便我们查看
    2
    (3).Sequence Counts:每个样本的序列计数,重复read的计数是个估计值。黑色部分表示重复序列的占比。 3
    (4). Sequence Quality Histograms:每个read各位置碱基的平均测序质量。质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。所以落在绿色区间—质量很好;橙色区间——质量合理;红色区间——质量不好。
    此处可以看出SRR6232298_2样本在约220个碱基后的测序质量平均线落在红色区间,也就是测序质量不合格。
    4
    (5).Per Sequence Quality Scores:具有平均质量分数的reads的数量。
    横坐标代表的是平均序列质量分数,纵坐标则是落在该区域的reads数。由此图中可以看出低质量reads占整体reads的比例(估算各颜色区域曲线下面积)
    这两个样本的高质量read占的百分比较大,故测序质量合格。
    5
    (6).Per Base Sequence Content :reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色,由此组成热图。上半部分是样本一,下半部分是样本二。由热图中可知:reads的前半部分大概14个bp左右的ATGC含量比例是非常不均匀的。
    6

    也可以分别查看样本中每个位置碱基出现的概率。

    7
    8
    (7).Per Sequence GC Content :横坐标代表的是GC含量百分比,纵坐标是数量

    正常的样本的GC含量曲线会趋近于正态分布曲线。正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

    8
    (8).Per Base N Content :每条reads各位置N碱基含量比例。从图中可以看出我们的样本N碱基含量很少,说明比对质量很好

    当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。

    9
    (9).Sequence Length Distribution :reads长度分布,当reads长度不一致时报”WARN”;当有长度为0的read时报“FAIL”。图中出现了黄色警告,表示reads长度不一致。
    10
    (10).Sequence Duplication Levels :通过统计不同拷贝数的reads的频率得出每个序列的相对重复水平。通过图片我可以看出reads首端重复频率很高,质量不是很好。

    一般来说,测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。

    11
    (11).Overrepresented sequences :如果有某个序列大量出现,就叫做 overrepresented,fastqc 的标准是占全部 reads 的 0.1%以上。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报“FAIL”。结果显示这2 个样本的读取量少于 1%,这些读取由占值过多序列组成。
    12
    (12).Adapter Content :接头含量。从图中来看我们的样本还存在一部分接头,后续我们还需要去除接头和质量不好的reads,去污染等操作来进行数据过滤。
    13

    参考资料来自:
    conda的安装与使用(2019-6-28更新)
    Multiqc(转录组分析之质量评估)
    整合QC质控结果的利器——MultiQC

    学习通有关FastQC的课程

    相关文章

      网友评论

        本文标题:MultiQC软件安装运行的过程

        本文链接:https://www.haomeiwen.com/subject/jfxiictx.html