multiqc是什么
他是一个用python编写的软件(所以安装multiqc之前要先安装python),功能是将多个样本的生物信息学分析结果汇总为一份报告。MultiQC会递归地在给定目录(文件夹)中搜索分析其他生物信息学工具分析得到的结果(results)和日志(logs)并编译成一个HTML报告。这是一个通用工具,完美地总结了许多生物信息学工具(目前是支持有97种,具体是哪些可以点击下图的红色框线中内容查看)的输出。
特别适合样本量很大,比如几十个甚至上百个样本,用某个生物学工具分析后就会产生同样数量的报告,一个个点开报告看很容易会漏掉某些信息,也不能直观比较样品间的一些差异,比如批次效应,某个样本某个指标异常等。
如何安装multiqc
新手不用想了,最好就用conda弄个小环境来安装,它的官网上有几种常用安装的安装视频(跳转youtube)
关于系统,MultiQC is主要是为我们在Unix系统(Linux, Mac OSX)上设计的。实在要在windows上操作也是可以的,它在Windows上如何安装配置可自行官网上看一下。
如何运行multiqc
最简单的代码就是运行(.表示搜索当前目录运行multiqc,它可以被替换成任何其他目录):
multiqc .
- 可以使用-x/--ignore命令(具体multiqc的版本决定了是用-x还是用--ignore)来不扫描某些文件或文件夹,比如下面不扫描当前文件夹下以sample_3开头的文件:
multiqc . --ignore-samples sample_3*
- 也可以让它只搜索某个文件:
multiqc --file-list my_file_list.txt
- 自定义报告的名称:-n/--filename,
- 自定义报告输出目录:-o/-outdir,
- 用不同模板来输出报告:-t/--template,甚至还可以自己写一个模板
- 输出为pdf报告,而不是默认的html报告:--pdf。需要注意的是:生成pdf报告的前提是已经安装了一个叫Pandoc的命令行工具(它是转换文件格式的),不然,就会出现报错:
Error creating PDF - pandoc not found. Is it installed? http://pandoc.org/
而Pandoc又依赖LaTeX/XeLaTeX,没安装的话,也会报错:
xelatex not found. Please select a different --pdf-engine or install xelatex
这搞得,所以conda安装软件的方便就显现出来了。另外,有些图像(比如FastQC sequence content plot, beeswarm dot plots, heatmaps)还可能会丢失。
另外还有其他一些参数,如直接打开网页窗口输出报告、导出图片等等,具体的multiqc --help调出帮助文档查看。
网友评论