美文网首页
2021-02-03multiqc使用简介1

2021-02-03multiqc使用简介1

作者: 八段锦1134 | 来源:发表于2021-02-03 21:22 被阅读0次
    Snipaste_2021-02-03_18-02-26.PNG

    multiqc是什么

    他是一个用python编写的软件(所以安装multiqc之前要先安装python),功能是将多个样本的生物信息学分析结果汇总为一份报告。MultiQC会递归地在给定目录(文件夹)中搜索分析其他生物信息学工具分析得到的结果(results)和日志(logs)并编译成一个HTML报告。这是一个通用工具,完美地总结了许多生物信息学工具(目前是支持有97种,具体是哪些可以点击下图的红色框线中内容查看)的输出。

    Snipaste_2021-02-03_17-47-57.PNG

    特别适合样本量很大,比如几十个甚至上百个样本,用某个生物学工具分析后就会产生同样数量的报告,一个个点开报告看很容易会漏掉某些信息,也不能直观比较样品间的一些差异,比如批次效应,某个样本某个指标异常等。

    如何安装multiqc

    新手不用想了,最好就用conda弄个小环境来安装,它的官网上有几种常用安装的安装视频(跳转youtube)
    关于系统,MultiQC is主要是为我们在Unix系统(Linux, Mac OSX)上设计的。实在要在windows上操作也是可以的,它在Windows上如何安装配置可自行官网上看一下。

    如何运行multiqc

    最简单的代码就是运行(.表示搜索当前目录运行multiqc,它可以被替换成任何其他目录):
    multiqc .

    • 可以使用-x/--ignore命令(具体multiqc的版本决定了是用-x还是用--ignore)来不扫描某些文件或文件夹,比如下面不扫描当前文件夹下以sample_3开头的文件:
      multiqc . --ignore-samples sample_3*
    • 也可以让它只搜索某个文件:
      multiqc --file-list my_file_list.txt
    • 自定义报告的名称:-n/--filename,
    • 自定义报告输出目录:-o/-outdir,
    • 用不同模板来输出报告:-t/--template,甚至还可以自己写一个模板
    • 输出为pdf报告,而不是默认的html报告:--pdf。需要注意的是:生成pdf报告的前提是已经安装了一个叫Pandoc的命令行工具(它是转换文件格式的),不然,就会出现报错:
      Error creating PDF - pandoc not found. Is it installed? http://pandoc.org/
      而Pandoc又依赖LaTeX/XeLaTeX,没安装的话,也会报错:
      xelatex not found. Please select a different --pdf-engine or install xelatex
      这搞得,所以conda安装软件的方便就显现出来了。另外,有些图像(比如FastQC sequence content plot, beeswarm dot plots, heatmaps)还可能会丢失。

    另外还有其他一些参数,如直接打开网页窗口输出报告、导出图片等等,具体的multiqc --help调出帮助文档查看。

    相关文章

      网友评论

          本文标题:2021-02-03multiqc使用简介1

          本文链接:https://www.haomeiwen.com/subject/alnmtltx.html