美文网首页三代测序技术
【RNA-seq自学4】样品分析之质量评估MultiQC及结果分

【RNA-seq自学4】样品分析之质量评估MultiQC及结果分

作者: Brickvstar | 来源:发表于2020-07-06 00:18 被阅读0次

    multiqc可以整合其它软件的报告的软件,能将fastqc生成的多个报告整合成一个报告的软件,这样能方便的查看所有测序数据的质量。

    MultiQC安装及运行

    安装:

    conda install multiqc

    运行:

    multiqc可以自动检测到文件中可以整合在一起的文件,运行也很简单。在指定目录下:

    multiqc ./

    输出的一个.hltm格式的文件是multiqc整合的结果

    MultiQC结果分析

    所有样本数据基本情况统计 fastqc的reads数 每个read各位置碱基的平均测序质量

    绿色区间——质量很好,橙色区间——质量合理。红色区间——质量不好。

    具有平均质量分数的reads的数量

    绿色区间——质量很好;橙色区间——质量合理;红色区间——质量不好

    当峰值小于27时——warning;当峰值小于20时——fail

    每个read各位置碱基ATCG的比列

    对所有reads的每一个位置,统计ATCG四种碱基的分布。reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。

    如果ATGC在任何位置的差值大于10%——warning;差值大于20%——fail

    reads的平均GC含量

    正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。

    偏离理论分布的reads超过15%时——warning;reads超过30%时——fail

    当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。

    当任意位置的N的比例超过5%——warning;超过20%——fail

    长度分布:151bp 每个序列的相对重复水平

    当非unique的reads占总数的比例大于20%时——warning; 比例大于50%时——fail

    测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示可能有bias的存在

    重复序列
    接头含量

    >5%——warning;>10%——fail

    以上各参数的汇总

    以上就是质量评估MultiQC及结果分析的所有内容

    参考:https://www.youtube.com/watch?v=qPbIlO_KWN0

               https://www.jianshu.com/p/85da4dcc6020

    相关文章

      网友评论

        本文标题:【RNA-seq自学4】样品分析之质量评估MultiQC及结果分

        本文链接:https://www.haomeiwen.com/subject/njebqktx.html