RNA-seq数据分析【一】：Data Check

作者: Bio_Infor | 来源:发表于2022-06-09 00:31 被阅读0次

RNA-seq数据分析【一】：Data Check
RNA sequencing: the teenage year
basic data analysis
1.Empirical assessment of analys
RNA-seq：转录组数据分析处理（上）
RNA-seq分析：从fastq到差异表达基因
R|FPKM、RPKM差异分析
RNA-Seq数据标准化方法
将salmon生成的数据导入R语言做DESeq2差异分析
angular2-chapter06

从本期开始，我将和 Qingdao University的pudding 一起分享RNA-seq从上游数据质控到下游差异分析等内容的全部流程，当然这仅仅是我们作为初学者的记录，欢迎大家批评指正！

背景介绍：测序物种是大鼠（Rat)，在不同浓度（0mg,2mg,20mg)下染毒情况，每组有三个生物学重复，双端测序。

另外，pudding所搭建的分析环境是虚拟机+ubuntu+MobaXterm(传输linux与windows之间的文件，这个软件强推！！特别好用 )

本期关键词：Data Check

数据完整性检查

当我们从测序公司拿到原始测序数据之后（一般是fastq格式），由于完整的数据对于数据分析特别重要，另外原始测序数据一般数据量会很大，在传输的过程中可能会出现传输失败的情况，所以我们就十分需要在拿到数据链接并下载后检查数据的完整性。好在测序公司基本都会提供一个md5文件，这个文件能帮我们完成对数据完整性的检测。对于我们来说，我们对md5的理解可以停留在一个比较浅的层次：每个文件我们都可以生成一个md5码，如果两个文件完全一样，那它们的md5码应该是一样的。所以我们只要生成我们下载到的测序数据的md5码，并和公司的进行比较就知道了。

这是下载到的原始数据，可以看到确实有个以.md5结尾的文件，下面是我们生成md5码的过程：

for file in *.fq.gz
do
  md5sum $file
done

下面是公司给的md5文件：

我们生成的是：

可以看到是一样的，说明我们的数据下载是没有问题的，所有文件都是完整的。

数据质量检查

检查完数据下载成功后就是对数据质量进行检查，在这里我们使用的是fastqc工具：

for file in *.fq.gz
do
  fastqc $file
done

运行完后会发现生成了.html 和 .zip后缀的文件。

其中，.html后缀文件导出到windows后可以进入网页，这个网页会出具报告告诉你测序质量如何，当然如果样本数据太多，不想每个网页都点开看的话，也可以用MultiQC把这些报告综合到一个网页里：

那么在这里我们简要介绍一下fastqc质检的结果：

Basic Statistics
该部分包含测序基本信息，例如测序平台信息、测序reads总数以及测序reads长度；
Per base sequence quality
该部分包含测序单碱基质量信息，横坐标为碱基，纵坐标为测序质量，测序质量的计算方式为-10*log10(error rate)，可以根据颜色简单判断测序质量，从红色到绿色区间，测序质量逐渐变高。另外，由于每个碱基位置的质量是由很多reads同一位置碱基质量的综合，所以会出现一个箱线图。
Per tile sequence quality
这个参数的理解需要我们首先知道什么是 tile，如果我们是用的illumina测序，illumina的flowcell会有很多的tile，你可以理解为小孔，每个小孔就能测一些reads：

但是我们没法保证flowcell不同部分是不是都是正常的，所以Per tile sequence quality就是给予了我们每个小孔（tile）的所有reads按碱基位置的测序质量信息。

这个图里面横坐标代表碱基位置，纵坐标代表不同的tile，蓝色表示tile是正常的，测序质量很好，如果有红色的部分（可能会出现一行行色），就可能提示我们这个测序的flowcell有部分tile可能有问题。
Per sequence quality scores
这个就相当于给我们总结了每条reads的测序质量。
Per base sequence content
一般来说，我们测出的reads的碱基分布应该是比较均匀的，横坐标表示碱基位置，纵坐标表示该碱基位置上的碱基组成信息，显然我们的这个fastq文件种前15bp的碱基分布不是很均衡。
Per sequence GC content
这个部分是为我们统计了每条read的G/C含量，并且会给我们一个理论的分布（蓝色线），异常的分布可能会意味着样品污染。
Per base N content
暗示着每个碱基位置上不能很好分辨的碱基的含量，显然这个值越低越好。
Sequence Length Distribution
这个部分是为我们统计了测序所得reads的长度分布情况。
Sequence Duplication Levels
这个部分为我们提供了整个文库中可能存在的PCR duplicate情况，蓝色线表示total reads，红色线表示deduplicate reads，例如一个文库有10条reads，其中7条是互不一样的，剩下3条是一样的，这个时候deduplicate reads总数就是8。
具体大家可以参考一下这篇知乎：https://zhuanlan.zhihu.com/p/44914479，写的很好哦。
Overrepresented sequences
这个部分为我们指出了在测序结果中出现频率比较高的序列，同时为我们提供了其可能的来源；
Adapter Content
这个部分对我们非常重要，因为测序可能会出现adapter，关于为什么测序会出现adapter，可以从illumina文库结构中找到答案：

我们测序只想得到中间的 Sequence of Interest，但如果这段序列很短，我们就会出现“测通”，即测到了红色甚至绿色的部分，这就是我们所谓的测到adapter了。
所以这个部分就给我们提示了不同reads同一碱基位置的adapter序列含量，同时也在右上角为我们给出了这些adapter的名称（或者说来源），我们在后面的分析当中需要把这部分去掉，否则带着adapter序列的reads会在我们比对到基因组的时候出现问题。