一文读懂FastQC Report

作者: 实验狗的简书 | 来源:发表于2019-07-27 18:37 被阅读15次

    前言:从今天开始就开始为拼装转录组做准备啦,今天听了技能树组织的生信人论坛,感觉很有意思。特此声明:本文所有代码及文件经通过本人亲自实践!绝对没有副作用!当然希望大家多提出宝贵意见,这样可以方便我更好的学习和进步。

    特别注意:本文所用数据已经经过Trimmomatic清洗!

    Basic Statistics

    总览,来判断测序质量

    图1 Basic Statistics

    Encoding:测序平台信息,我也不知道这个样本的测序信息对不对,所以这里就没有办法深入解释了。

    Total Sequences:测序获得的reads数目,测序质量的重要评价手段。

    Sequences flagged as poor quality:标记为差的碱基序列,这个貌似没有神马用处

    Sequence length:测序获得长度

    %GC:整个测序中碱基GC所占比例,一般有物种特异性。

    注意:Sequence length GC

    Per base sequence quality

    图2 Per base sequence quality

    横坐标:碱基所在的测序位置,这个一般根据不同测序平台会有不同。

    纵坐标:测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

    图例:箱线图,25-50-75%代表数据所处位置。

    注意:理论来说好的测序结果应该都在绿色和黄色区域,红色区域代表测序质量较差。

    Per tile sequence quality

    图 3 Per tile sequence quality

    横坐标:碱基所在的测序位置,这个一般根据不同测序平台会有不同。

    纵坐标:tile的index编号(tile应该是flow cell - lane - tile中的单位。

    注意:也是判定测序质量好和不好的依据,整张图应该以冷色调为主,如果出现大量暖色,则证明某些tail测序有些问题,在后期的处理过程中可以删掉那些暖色的tail。

    Per sequence quality scores

    1563507204317.png

    从read的总体质量判定这次测序的质量,是质量分析的重要标准之一。

    横坐标:测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

    纵坐标:在该质量值下的read数目。

    注意:峰应该集中在高质量区间,即图像起始点最好大于20。

    Per base sequence content

    图4 Per base sequence content

    横坐标:还是碱基的数目

    纵坐标:碱基的百分比

    注意:ATCG碱基分布应该差异不大。两条紧挨着的线:AT、CG误差应小于10%,若大于该比值则认为测序风险大。由于测序仪调整造成前几个测序结果略有误差,同时也有同学指出可能是含有接头序列所导致的碱基偏好,可以通过后期工作将前几个碱基删掉。在本案例中由于测序质量很好,就没有进行删除操作(ps 查了几个资料,大家争议比较大,建议还是根据自身情况进行确定,至于删除与否建议参考biostar相关的帖子)。

    Per sequence GC content

    图5 Per sequence GC content

    横坐标:每个read的平均GC比

    纵坐标:该GC比下,read的数量

    注意:蓝色是理论值,测序结果趋向蓝色越好。如果有其它污染会导致双峰图样。

    Per base N content

    图6 Per base N content

    横坐标:又是碱基数目。

    纵坐标:N(未知碱基)所占比例。

    注意:未知碱基数目越少越好。

    Sequence Length Distribution

    [图片上传失败...(image-ee9921-1564222758518)]

    横坐标:read的长度,本文中应该是125。

    纵坐标:代表在该长度下read数目的多少。

    Sequence Duplication Levels

    图7 Sequence Duplication Levels

    横坐标:序列重复等级

    纵坐标:重复数量

    注意:在测序建库PCR过程中,由一些基因扩增次数过多导致。重复次数为一次的比例越高越好。但由于本文中使用的是转录组数据,偏高正常,一旦移除会对后面定量分析计算带来困扰。

    Overrepresented sequences

    图8 Overrepresented sequences

    大量重复序列:FastQC检测出的大量重复序列。

    Adapter Content

    图9 Adapter Content

    横坐标:又又又是碱基所在位置。

    纵坐标:接头所占比例。

    注意:当FastQC参数中 -a中没有参数时,默认使用四种lillmina接头进行匹配。

    Kmer Content

    图10 Kmer Content

    横坐标:又又又又是相同的内容。

    纵坐标:观测值和预测值的比值。

    注意:啥是K-mer啊?具体可以看参考资料5。其实就是一段短小的重复序列。

    图11 K-mer统计图

    这是前面k-mer=5时(软件默认)生成的表格,主要用于检查数量情况。

    参考资料:

    1. (3)转录组之数据质控 https://www.jianshu.com/p/2ed3622ed4a8

    2. 【转录组入门】3:了解fastq测序数据 https://www.cnblogs.com/chenpeng1024/p/9166988.html

    3. 利用fastqc检测原始序列的质量 https://www.jianshu.com/p/a1eb03d63083

    4. Question: Sequence duplication levels-RNA Seq https://www.biostars.org/p/307361/

    5. Kmer content http://seqanswers.com/forums/showthread.php?t=16262

    6. FastQC analyses of trimmed MiSeq reads kmer content http://seqanswers.com/forums/showthread.php?t=40646

    7. Question: Kmer content failed in FastQC analysis https://www.biostars.org/p/340112/

    相关文章

      网友评论

        本文标题:一文读懂FastQC Report

        本文链接:https://www.haomeiwen.com/subject/synerctx.html