从本期开始,我将和 Qingdao University的pudding 一起分享RNA-seq从上游数据质控到下游差异分析等内容的全部流程,当然这仅仅是我们作为初学者的记录,欢迎大家批评指正!
背景介绍:测序物种是大鼠(Rat),在不同浓度(0mg,2mg,20mg)下染毒情况,每组有三个生物学重复,双端测序。
另外,pudding所搭建的分析环境是虚拟机+ubuntu+MobaXterm(传输linux与windows之间的文件,这个软件强推!!特别好用 )
本期关键词:Data Check
数据完整性检查
当我们从测序公司拿到原始测序数据之后(一般是fastq格式),由于完整的数据对于数据分析特别重要,另外原始测序数据一般数据量会很大,在传输的过程中可能会出现传输失败的情况,所以我们就十分需要在拿到数据链接并下载后检查数据的完整性。好在测序公司基本都会提供一个md5文件,这个文件能帮我们完成对数据完整性的检测。对于我们来说,我们对md5的理解可以停留在一个比较浅的层次:每个文件我们都可以生成一个md5码,如果两个文件完全一样,那它们的md5码应该是一样的。所以我们只要生成我们下载到的测序数据的md5码,并和公司的进行比较就知道了。
这是下载到的原始数据,可以看到确实有个以.md5结尾的文件,下面是我们生成md5码的过程:
for file in *.fq.gz
do
md5sum $file
done
下面是公司给的md5文件:
我们生成的是:
可以看到是一样的,说明我们的数据下载是没有问题的,所有文件都是完整的。
数据质量检查
检查完数据下载成功后就是对数据质量进行检查,在这里我们使用的是fastqc工具:
for file in *.fq.gz
do
fastqc $file
done
运行完后会发现生成了.html 和 .zip后缀的文件。
其中,.html后缀文件导出到windows后可以进入网页,这个网页会出具报告告诉你测序质量如何,当然如果样本数据太多,不想每个网页都点开看的话,也可以用MultiQC把这些报告综合到一个网页里:
那么在这里我们简要介绍一下fastqc质检的结果:
- Basic Statistics
该部分包含测序基本信息,例如测序平台信息、测序reads总数以及测序reads长度; - Per base sequence quality
该部分包含测序单碱基质量信息,横坐标为碱基,纵坐标为测序质量,测序质量的计算方式为-10*log10(error rate),可以根据颜色简单判断测序质量,从红色到绿色区间,测序质量逐渐变高。另外,由于每个碱基位置的质量是由很多reads同一位置碱基质量的综合,所以会出现一个箱线图。
- Per tile sequence quality
这个参数的理解需要我们首先知道什么是 tile,如果我们是用的illumina测序,illumina的flowcell会有很多的tile,你可以理解为小孔,每个小孔就能测一些reads:
但是我们没法保证flowcell不同部分是不是都是正常的,所以Per tile sequence quality就是给予了我们每个小孔(tile)的所有reads按碱基位置的测序质量信息。
这个图里面横坐标代表碱基位置,纵坐标代表不同的tile,蓝色表示tile是正常的,测序质量很好,如果有红色的部分(可能会出现一行行色),就可能提示我们这个测序的flowcell有部分tile可能有问题。 - Per sequence quality scores
这个就相当于给我们总结了每条reads的测序质量。 -
Per base sequence content
一般来说,我们测出的reads的碱基分布应该是比较均匀的,横坐标表示碱基位置,纵坐标表示该碱基位置上的碱基组成信息,显然我们的这个fastq文件种前15bp的碱基分布不是很均衡。
- Per sequence GC content
这个部分是为我们统计了每条read的G/C含量,并且会给我们一个理论的分布(蓝色线),异常的分布可能会意味着样品污染。 -
Per base N content
暗示着每个碱基位置上不能很好分辨的碱基的含量,显然这个值越低越好。
- Sequence Length Distribution
这个部分是为我们统计了测序所得reads的长度分布情况。 - Sequence Duplication Levels
这个部分为我们提供了整个文库中可能存在的PCR duplicate情况,蓝色线表示total reads,红色线表示deduplicate reads,例如一个文库有10条reads,其中7条是互不一样的,剩下3条是一样的,这个时候deduplicate reads总数就是8。
具体大家可以参考一下这篇知乎:https://zhuanlan.zhihu.com/p/44914479,写的很好哦。 - Overrepresented sequences
这个部分为我们指出了在测序结果中出现频率比较高的序列,同时为我们提供了其可能的来源; - Adapter Content
这个部分对我们非常重要,因为测序可能会出现adapter,关于为什么测序会出现adapter,可以从illumina文库结构中找到答案:
我们测序只想得到中间的 Sequence of Interest,但如果这段序列很短,我们就会出现“测通”,即测到了红色甚至绿色的部分,这就是我们所谓的测到adapter了。
所以这个部分就给我们提示了不同reads同一碱基位置的adapter序列含量,同时也在右上角为我们给出了这些adapter的名称(或者说来源),我们在后面的分析当中需要把这部分去掉,否则带着adapter序列的reads会在我们比对到基因组的时候出现问题。
网友评论