生信笔记2-fastqc的安装和使用

作者: 江湾青年 | 来源:发表于2021-05-22 15:10 被阅读0次

生信笔记2-fastqc的安装和使用
《学习小组Day3笔记--面团》
【生信】EDirect的安装和使用
2018-07-22
学习小组Day6-Freeman
CocoaPods使用笔记
Linux012 Fastqc安装及使用
生信软件（2018-05-28）
我的conda常用命令、报错解决与技巧记录
学习小组Day3笔记--杜广政

介绍

fastqc是查看转录组数据质量的软件

安装

conda install fastqc

使用

fastqc -o <outdir> -t <threads> fastq1 fastq2 ...

结果解读

运行结束后生成两个文件一个.html网页文件，一个是.zip压缩文件，只看html网页文件就可以了

基础信息

Filename：指的是进行质控的文件名

Encoding：指测序平台的版本和相应的编码版本号

Total Sequences：指reads的数量

Sequence length：指测序的长度

%GC 指整体序列中的GC含量

每个碱基的质量

此图中的横轴是测序序列第1个碱基到第151个碱基

纵轴是质量得分，Q = -10*log10（error P）即20表示0.01的错误率，30表示0.001，纵轴值越高代表质量越好

图中红线表示中值

图中蓝色的细线是各个位置的平均值的连线

每条序列的质量

序列长度为51bp，那么这51个位置每个位置Q值的平均值就是这条reads的质量值

# 该图横轴是0-40，表示Q值

纵轴是每个值对应的reads数目

这个样本数据，测序结果主要集中在30-36中，证明测序质量很好！

碱基分布

横轴是1 - 51 bp；纵轴是百分比

图中四条线代表A T C G在每个位置平均含量

理论上来说，A和T应该相等，G和C应该相等，但是一般测序的时候，刚开始测序仪状态不稳定，很可能出现上图开头的情况。

序列平均GC含量分布图

横轴是0 - 100%；纵轴是每条序列GC含量对应的数量

蓝色的线是程序根据经验分布给出的理论值，红色是真实值，两个应该比较接近才比较好

N统计含量

当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时，就会产生"N"，对所有reads的每个位置统计N的比率。

序列测序长度统计

每次测序仪测出来的长度在理论上应该是完全相等的，但是总会有一些偏差

比如此图中，51bp是主要的，但是还是有少量的50和52bp的长度

当测序的长度不同时，如果很严重，则表明测序仪在此次测序不成功

重复序列

统计序列完全一样的reads的频率。横坐标是duplication的次数，纵坐标是duplicated reads的数目

接头含量

横坐标为reads位置，纵坐标为Adapter序列占比；如果fastqc默认参数会将所有的常见的Adapter都列出

正常情况是趋于0的直线，也就是说序列两端Adapter已经去除干净；如果有Adapter，需要先用cutadapt去接头

参考

https://www.jianshu.com/p/fe6af418a8bc

网友评论

本文标题：生信笔记2-fastqc的安装和使用

本文链接：https://www.haomeiwen.com/subject/xhfsjltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生信笔记2-fastqc的安装和使用

介绍

安装

使用

结果解读

参考

相关文章

生信笔记2-fastqc的安装和使用

《学习小组Day3笔记--面团》

【生信】EDirect的安装和使用

2018-07-22

学习小组Day6-Freeman

CocoaPods使用笔记

Linux012 Fastqc安装及使用

生信软件（2018-05-28）

我的conda常用命令、报错解决与技巧记录

学习小组Day3笔记--杜广政

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生物信息学

试读

走进转录组