Hello 大家好! 我们又见面了!
最近总搞FastQC报告的研读,是不是都看烦了?没关系,我们再搞最后2次,就进入下一个主题啦!昨天的问题中,我们告诉大家FastQC的报告中最重要的几张图都在下面用红框框出来了。今天我们来研读2张图。
image.png第1张图是:Per sequence GC content
第1张图是:Per sequence GC content# 横轴是0 - 100%; 纵轴是每条序列GC含量对应的数量
# 蓝色的线是程序根据经验分布给出的理论值,红色是真实值,两个应该比较接近才比较好
# 当红色的线出现双峰,基本肯定是混入了其他物种的DNA序列
# 这张图中的信息良好
图1-1 human 全基因组测序FastQC 结果图
图1-1 human 全基因组测序FastQC 结果图序列测序长度统计
下图2-1是:Sequence Length Distribution
图2-1 Sequence Length Distribution
图2-1 刚下机以后的fastq数据进行FastQC 结果图
# 横坐标代表序列长度,纵坐标代表长度为某一bp的序列所对应的数量
# 每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差
# 比如此图中,101bp是主要的,但是还是有少量的100和102bp的长度,不过数量比较少,不影响后续分析
# 当测序的长度不同时,如果很严重,则表明测序仪在此次测序过程中产生的数据不可信
图1-1中是human全基因组测序,结合昨天的问题,那么peak的中间大约应该在多少?
上一次的问题中GC总体比例大约在42%左右,所以如果这是human全基因组测序,那么peak在横坐标对应42的位置比较好。
图1-2与图1-1有哪些显著的不同?造成这些不同的原因有可能是什么?遇到这个问题,我们通常应该做些什么?
图1-1有一个peak,并且与热力学理论值(蓝线)基本吻合
图1-2有两个peak,并且其中一个peak与蓝线相差很多,当红色的线出现双峰,基本上是混入了其他物种的DNA序列
遇到这个问题,首先进行mapping,统计有多大比例reads map到了目标参考基因组上,如果比例非常低说明污染严重,数据不可用
如果大部分reads都map成功,剩余一部分可以通过blast检查是混入了哪些污染物,过滤掉这些reads就可以,不影响后续的分析
图2-1是刚下机的fastq数据进行FastQC 结果图,有什么特点?为什么会出现这样的结果?如果对刚下机的fastq数据进行cut adapter,图2-1还会是这样的结果吗?为什么?
简单来说是,下机的时候都是150bp,因为有的序列后来切掉了adapter,所以后来经过cut adapter以后,长短不齐,但也只是少数;
测序仪成功下机的数据都是整齐的一定长度的序列,比如最常用的illumina X Ten 是双端150bp;
测序过程当中产生的不足150bp的序列在下机时已经被过滤掉了;
如果进行cut adapter,序列的长度将不一致,因为reads中包含信息的insert的长度并不完全一致,150bp的测序长度是否已经包含了adapter的序列是未知的,因此cut adapter之后的reads长度不同
(这里应该说的是3’ adapter)
能力扩展题:
请想办法,计算Human genome 19(hg19)每一条染色体的GC含量。
# 思路1
- UCSC或者Emble下载Human genome 19(hg19)染色体序列;
- 直接把下载的序列使用FASTQQC检测序列“质量”
- report中Sequence content across all bases会显示GC结果
# 思路2
- UCSC或Emble下载Human genome 19(hg19)染色体序列;
- 写Python程序一次读取序列内容;
- 统计每一条染色体的GC含量;
- 具体的代码及方法可以参考知乎Live
参考资料:
1.高通量测序技术-孟浩巍-使用 FastQC 做质控
2.高通量测序技术-孟浩巍-illumina 测序原理介绍
3.What Is The Gc-Content Across Different Human Chromosomes?
python生信入门
网友评论