介绍
fastqc是查看转录组数据质量的软件
安装
conda install fastqc
使用
fastqc -o <outdir> -t <threads> fastq1 fastq2 ...
结果解读
运行结束后生成两个文件一个.html网页文件,一个是.zip压缩文件,只看html网页文件就可以了

Filename:指的是进行质控的文件名
Encoding:指测序平台的版本和相应的编码版本号
Total Sequences:指reads的数量
Sequence length:指测序的长度
%GC 指整体序列中的GC含量

此图中的横轴是测序序列第1个碱基到第151个碱基
纵轴是质量得分,Q = -10*log10(error P)即20表示0.01的错误率,30表示0.001,纵轴值越高代表质量越好
图中红线表示中值
图中蓝色的细线是各个位置的平均值的连线

序列长度为51bp,那么这51个位置每个位置Q值的平均值就是这条reads的质量值
# 该图横轴是0-40,表示Q值
纵轴是每个值对应的reads数目
这个样本数据,测序结果主要集中在30-36中,证明测序质量很好!

横轴是1 - 51 bp;纵轴是百分比
图中四条线代表A T C G在每个位置平均含量
理论上来说,A和T应该相等,G和C应该相等,但是一般测序的时候,刚开始测序仪状态不稳定,很可能出现上图开头的情况。

横轴是0 - 100%; 纵轴是每条序列GC含量对应的数量
蓝色的线是程序根据经验分布给出的理论值,红色是真实值,两个应该比较接近才比较好

当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时,就会产生"N",对所有reads的每个位置统计N的比率。

每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差
比如此图中,51bp是主要的,但是还是有少量的50和52bp的长度
当测序的长度不同时,如果很严重,则表明测序仪在此次测序不成功

统计序列完全一样的reads的频率。横坐标是duplication的次数,纵坐标是duplicated reads的数目

横坐标为reads位置,纵坐标为Adapter序列占比;如果fastqc默认参数会将所有的常见的Adapter都列出
正常情况是趋于0的直线,也就是说序列两端Adapter已经去除干净;如果有Adapter,需要先用cutadapt去接头
网友评论