美文网首页生物信息学试读走进转录组
生信笔记2-fastqc的安装和使用

生信笔记2-fastqc的安装和使用

作者: 江湾青年 | 来源:发表于2021-05-22 15:10 被阅读0次

介绍

fastqc是查看转录组数据质量的软件


安装

conda install fastqc


使用

fastqc -o <outdir> -t <threads> fastq1 fastq2 ...


结果解读

运行结束后生成两个文件一个.html网页文件,一个是.zip压缩文件,只看html网页文件就可以了

基础信息

Filename:指的是进行质控的文件名

Encoding:指测序平台的版本和相应的编码版本号

Total Sequences:指reads的数量

Sequence length:指测序的长度

%GC 指整体序列中的GC含量


每个碱基的质量

此图中的横轴是测序序列第1个碱基到第151个碱基

纵轴是质量得分,Q = -10*log10(error P)即20表示0.01的错误率,30表示0.001,纵轴值越高代表质量越好

图中红线表示中值

图中蓝色的细线是各个位置的平均值的连线


每条序列的质量

序列长度为51bp,那么这51个位置每个位置Q值的平均值就是这条reads的质量值

# 该图横轴是0-40,表示Q值

纵轴是每个值对应的reads数目

这个样本数据,测序结果主要集中在30-36中,证明测序质量很好!


碱基分布

横轴是1 - 51 bp;纵轴是百分比

图中四条线代表A T C G在每个位置平均含量

理论上来说,A和T应该相等,G和C应该相等,但是一般测序的时候,刚开始测序仪状态不稳定,很可能出现上图开头的情况。


序列平均GC含量分布图

横轴是0 - 100%; 纵轴是每条序列GC含量对应的数量

蓝色的线是程序根据经验分布给出的理论值,红色是真实值,两个应该比较接近才比较好


N统计含量

当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时,就会产生"N",对所有reads的每个位置统计N的比率。


序列测序长度统计

每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差

比如此图中,51bp是主要的,但是还是有少量的50和52bp的长度

当测序的长度不同时,如果很严重,则表明测序仪在此次测序不成功


重复序列

统计序列完全一样的reads的频率。横坐标是duplication的次数,纵坐标是duplicated reads的数目


接头含量

横坐标为reads位置,纵坐标为Adapter序列占比;如果fastqc默认参数会将所有的常见的Adapter都列出

正常情况是趋于0的直线,也就是说序列两端Adapter已经去除干净;如果有Adapter,需要先用cutadapt去接头


参考

https://www.jianshu.com/p/fe6af418a8bc

相关文章

网友评论

    本文标题:生信笔记2-fastqc的安装和使用

    本文链接:https://www.haomeiwen.com/subject/xhfsjltx.html