multiqc可以整合其它软件的报告的软件,能将fastqc生成的多个报告整合成一个报告的软件,这样能方便的查看所有测序数据的质量。
MultiQC安装及运行
安装:
conda install multiqc
运行:
multiqc可以自动检测到文件中可以整合在一起的文件,运行也很简单。在指定目录下:
multiqc ./
输出的一个.hltm格式的文件是multiqc整合的结果
MultiQC结果分析
所有样本数据基本情况统计 fastqc的reads数 每个read各位置碱基的平均测序质量绿色区间——质量很好,橙色区间——质量合理。红色区间——质量不好。
具有平均质量分数的reads的数量绿色区间——质量很好;橙色区间——质量合理;红色区间——质量不好
当峰值小于27时——warning;当峰值小于20时——fail
每个read各位置碱基ATCG的比列对所有reads的每一个位置,统计ATCG四种碱基的分布。reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。
如果ATGC在任何位置的差值大于10%——warning;差值大于20%——fail
reads的平均GC含量正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。
偏离理论分布的reads超过15%时——warning;reads超过30%时——fail
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。
当任意位置的N的比例超过5%——warning;超过20%——fail
长度分布:151bp 每个序列的相对重复水平当非unique的reads占总数的比例大于20%时——warning; 比例大于50%时——fail
测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示可能有bias的存在
重复序列接头含量
>5%——warning;>10%——fail
以上各参数的汇总以上就是质量评估MultiQC及结果分析的所有内容
参考:https://www.youtube.com/watch?v=qPbIlO_KWN0
https://www.jianshu.com/p/85da4dcc6020
网友评论