美文网首页生信基础知识
转录组分析 | 使用FastQC进行数据质控

转录组分析 | 使用FastQC进行数据质控

作者: 生信小王子 | 来源:发表于2019-12-19 16:00 被阅读0次

    随着测序成本的不断降低,RNA-seq已经是许多实验的标配。经过小编一段时间的准备,接下来的几周时间里,将推出一系列的转录组分析教程,教大家从零开始学习转录组分析,欢迎大家持续关注!

    在拿到测序数据后,我们首先要了解手中数据的质量,因为测序的质量直接影响下游分析的准确性,所以在我们进行转录组数据分析前,第一步应该判断测序质量的好坏。

    判断测序数据质量的工具有很多,今天教大家用FastQC 检测测序数据的质量。

    ## 下载FastQC
    wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
    ## 解压
    unzip fastqc_v0.11.8.zip
    ## 进入目录
    cd FastQC
    ## 运行FastQC
    ./fastqc seq1.fq.gz seq2.fq.gz -o output_dir -t threads

    -o:输出文件目录

    -t:线程数

    运行完FastQC以后,输出目录下会产生一个fastqc.html文件,我们可以打开该文件来评估测序数据的质量。

    FastQC产生的结果文件中主要包含以下几个指标:

    其中绿色代表通过质控(质量高),橙色代表警告(质量一般,数据还可以用),红色代表未通过质控(质量差,需要确定一下该指标未通过的原因)。

    指标1:基本统计信息

    表格展示了我们数据的基本信息。从表格里我们可以得出fastq文件的测序平台,总reads数,reads长度和GC含量等信息。

    指标2:碱基测序质量

    图中横坐标表示每条reads上碱基的位置,由图可知,我们的reads长150。纵坐标表示碱基的质量值QUAL,该QUAL=-10*log10(碱基错误率),如果QUAL为20,则表示该处碱基测序错误率为1%(0.01),如果QUAL为30,则表示该处碱基测序错误率为0.1%(0.001)。黄色的箱形图表示所有reads在这个位置的质量值分布,箱形图上的红线代表质量值的中位数,蓝线代表质量值的平均数。一般来说,reads末端的碱基质量值会低一些,但是只要没有大面积的碱基质量低于20,问题都不是很大。如果一些位置碱基质量太低的话,可以考虑去掉。

    指标3:每条reads的碱基质量平均值

    图中横坐标表示每条reads的碱基质量平均值,纵坐标表示reads数。由图可知,大部分reads的碱基质量平均值集中在36左右,几乎全部reads的碱基质量平均值都在20以上,说明测序质量非常好。

    指标4:碱基分布情况

    图中横坐标表示每条reads上碱基的位置,纵坐标表示每种碱基在该位置数量的百分比。一般来说,如果测序过程是随机的话,A和T的比例应该相近,C与G的比例也应该相近,像图中9bp前出现的碱基比例波动其实是不正常的,可以考虑将其切掉。但如果大家发现自己的数据只是前2bp有波动,其实数据还是可以的,因为测序开始时,状态不稳定,很容易产生波动。

    指标5:GC含量统计

    图中横坐标为reads的GC含量,纵坐标是reads的数目。蓝线是GC含量理论值,红线是实际值。一般来说两个曲线越接近数据质量越好。像上图这种情况,有可能是某些区域被反复测序导致的。

    指标6:N碱基含量

    图中横坐标表示每条reads上碱基的位置。纵坐标表示N碱基的百分比。理论上N碱基应该如图所示,基本是不存在的。

    指标7:reads长度分布

    图中横坐标表示reads的长度,纵坐标表示reads的数量。由图可知,数据里reads的长度集中在150bp,未出现极短的reads,说明数据质量较好。

    指标8:重复序列比例

    图中横坐标表示reads重复次数,纵坐标表示reads比例。蓝线表示所有reads的分布情况,红线表示去重后reads的分布情况。如果含有的重复序列超过50%,说明测序数据可能有一些问题。

    指标9:过表达序列

    过表达序列指大量重复出现的序列,图中显示无过表达序列,说明测序质量很好。

    指标10:接头序列

    图中横坐标表示每条reads上碱基的位置。纵坐标表示接头序列碱基的百分比。图中显示数据中不含接头序列。

    通过以上10个指标对测序数据进行初步评估,我们就可以对自己数据的质量有一个大概了解,进入下一步的分析阶段。

    如果对以上步骤有任何疑问,可以随时在后台与小编交流~

    参考资料:

    https://zhuanlan.zhihu.com/p/28802083

    https://www.jianshu.com/p/fe6af418a8bc

    http://blog.sciencenet.cn/blog-3406804-1161193.html

    http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3+Analysis+Modules/

    欢迎关注微信公众号“生信小王子 ”,里面干货更多哦~

    相关文章

      网友评论

        本文标题:转录组分析 | 使用FastQC进行数据质控

        本文链接:https://www.haomeiwen.com/subject/jramnctx.html