美文网首页RNAsq
【RNA-seq自学03】样品分析之质量评估FastQC及结果分

【RNA-seq自学03】样品分析之质量评估FastQC及结果分

作者: Brickvstar | 来源:发表于2020-07-04 19:35 被阅读0次

      本次实战我采用的是B站某教程上的拟南芥数据,教程链接:https://www.bilibili.com/video/BV1KJ411p7WN?p=1

    构建项目目录,并导入文件

    构建工作目录

    00ref中的gtf注释文件信息和fasta参考基因文件,可以用wget命令在数据库中下载  拟南芥注释信息链接

    另外要检测数据的完整性,即md5值。

        给自己的文件生成md5值:【md5sum *gz > md5.txt】

        比对已有的md5值:【md5sum -c md5.txt】程序显示的结果为OK

    FastQC安装及运行

    安装:

    conda install fastqc

    运行:

    fastqc sample1 R1. fastq. gz #处理一个文件

    -

    fastqc sample1 R1. fastq. gz  sample1 R2. fastq. gz sample2 R1. fastq. gz sample2 R2. fastq. gz #批量处理多个文件

    fastqc sample * gz  #批量处理多个文件

    运行完产生的. html文件可以在网页中打开,即生成的报告

    推荐:可以用winscp软件,直接把文件拖动到桌面上。

    FastQC报告:

    碱基质量分布

    绿色表示质量好,黄色一般,红色较差柱状是25%~75%区间质量分布,error bar是10%~90%区间质量分布,蓝线表示平均数。

    tail测序质量

    蓝色表示测序质量很高,暖色表示测序质量不高(此图是练习数据生成的图,长度短,质量高)

    所有序列的质量分布

    纵轴表示每个值对应的read数目,当测序结果为一个单一的高峰,表明测序质量良

    碱基成分

    四种颜色的线分别表示不同类型的碱基成分含量。图中read1-19均为不合格的结果,四条线平行则表明质量结果较好

    GC含量分布

    蓝色为程序根据经验分布给出的理论值,红色是真实值。若出现红线双峰,表明样品不纯,混入了其他DNA。

    N含量分布

    当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。

    序列长度分布

    一般在切割RNA时的长度都在150碱基左右。

    大量重复的序列

    图中标红的部分“TruSeq Adapter”作为接头在trimmomatic中会用到。

    接头含量

    通过的结果是不含接头。若有adapter残留,后续必须去接头【trimmomatic】。

    以上就是质量评估FastQC及结果分析的全部内容。

    参考:

    https://blog.csdn.net/gateswell/article/details/78858579

    相关文章

      网友评论

        本文标题:【RNA-seq自学03】样品分析之质量评估FastQC及结果分

        本文链接:https://www.haomeiwen.com/subject/ytivqktx.html