bioinfo100-第8题读懂FastQC报告 Part I

作者: RachaelRiggs | 来源:发表于2020-05-10 23:27 被阅读0次

bioinfo100-第8题读懂FastQC报告 Part I
bioinfo100-第7题-读懂FastQC报告 Part I
bioinfo100-第6题-读懂FastQC报告 Part I
bioinfo100-第10题-FastQC报告之adapter
bioinfo100-第9题-FastQC报告中的duplica
读懂FastQC质控报告—理解QC结果
Fastqc 报告说明
FastQC报告解读
思维导图课题结题的一些思考
bioinfo100-第15题-BLAT

mhw Blibili
zhn-blog
mhw-zh

Hello 大家好！我们又见面了！

最近总搞FastQC报告的研读，是不是都看烦了？没关系，我们再搞最后2次，就进入下一个主题啦！昨天的问题中，我们告诉大家FastQC的报告中最重要的几张图都在下面用红框框出来了。今天我们来研读2张图。

image.png

第1张图是：Per sequence GC content

# 横轴是0 - 100%； 纵轴是每条序列GC含量对应的数量
# 蓝色的线是程序根据经验分布给出的理论值，红色是真实值，两个应该比较接近才比较好
# 当红色的线出现双峰，基本肯定是混入了其他物种的DNA序列
# 这张图中的信息良好

图1-1 human 全基因组测序FastQC 结果图

图1-1 human 全基因组测序FastQC 结果图

序列测序长度统计

下图2-1是：Sequence Length Distribution

图2-1 Sequence Length Distribution

图2-1 刚下机以后的fastq数据进行FastQC 结果图

# 横坐标代表序列长度，纵坐标代表长度为某一bp的序列所对应的数量
# 每次测序仪测出来的长度在理论上应该是完全相等的，但是总会有一些偏差
# 比如此图中，101bp是主要的，但是还是有少量的100和102bp的长度，不过数量比较少，不影响后续分析
# 当测序的长度不同时，如果很严重，则表明测序仪在此次测序过程中产生的数据不可信

图1-1中是human全基因组测序，结合昨天的问题，那么peak的中间大约应该在多少？

上一次的问题中GC总体比例大约在42%左右，所以如果这是human全基因组测序，那么peak在横坐标对应42的位置比较好。

图1-2与图1-1有哪些显著的不同？造成这些不同的原因有可能是什么？遇到这个问题，我们通常应该做些什么？

图1-1有一个peak，并且与热力学理论值（蓝线）基本吻合

图1-2有两个peak，并且其中一个peak与蓝线相差很多，当红色的线出现双峰，基本上是混入了其他物种的DNA序列

遇到这个问题，首先进行mapping，统计有多大比例reads map到了目标参考基因组上，如果比例非常低说明污染严重，数据不可用

如果大部分reads都map成功，剩余一部分可以通过blast检查是混入了哪些污染物，过滤掉这些reads就可以，不影响后续的分析

图2-1是刚下机的fastq数据进行FastQC 结果图，有什么特点？为什么会出现这样的结果？如果对刚下机的fastq数据进行cut adapter，图2-1还会是这样的结果吗？为什么？

简单来说是，下机的时候都是150bp，因为有的序列后来切掉了adapter，所以后来经过cut adapter以后，长短不齐，但也只是少数；

测序仪成功下机的数据都是整齐的一定长度的序列，比如最常用的illumina X Ten 是双端150bp；

测序过程当中产生的不足150bp的序列在下机时已经被过滤掉了；

如果进行cut adapter，序列的长度将不一致，因为reads中包含信息的insert的长度并不完全一致，150bp的测序长度是否已经包含了adapter的序列是未知的，因此cut adapter之后的reads长度不同

（这里应该说的是3’ adapter）

能力扩展题：

请想办法，计算Human genome 19（hg19）每一条染色体的GC含量。

# 思路1
- UCSC或者Emble下载Human genome 19（hg19）染色体序列；
- 直接把下载的序列使用FASTQQC检测序列“质量”
- report中Sequence content across all bases会显示GC结果

# 思路2
- UCSC或Emble下载Human genome 19（hg19）染色体序列；
- 写Python程序一次读取序列内容；
- 统计每一条染色体的GC含量；
- 具体的代码及方法可以参考知乎Live

参考资料：
1.高通量测序技术-孟浩巍-使用 FastQC 做质控
 2.高通量测序技术-孟浩巍-illumina 测序原理介绍
 3.What Is The Gc-Content Across Different Human Chromosomes?
python生信入门

网友评论

2020生物信息学

本文标题：bioinfo100-第8题读懂FastQC报告 Part I

本文链接：https://www.haomeiwen.com/subject/dipbghtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！