转录组入门（三）质量控制

作者: Stone_Stan4d | 来源:发表于2017-12-30 17:06 被阅读128次

转录组入门（三）质量控制
转录组入门（3）：质量控制
使用scater包进行单细胞测序分析（二）：数据质量控制
RNAseq006 转录组入门(6)：reads计数
RNAseq007 转录组入门上游分析全流程
RNA-Seq数据分析——原始数据质量控制（QC）
htseq-reads计数___转载
1.转录组 | 上游分析（数据下载，比对，计数）
转录组学习三（数据质控）
转录组学习二（数据下载）

主要参考这里，部分有改变：https://www.jianshu.com/p/303de2c95239
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件，并且用fastqc软件测试测序文件的质量！
作业，理解测序reads，GC含量，质量值，接头，index，fastqc的全部报告，搜索中文教程，并发在论坛上面。

数据解压

上一次作业最后部分有做这个。在下载SRR3589956 ~ SRR3589962这6个样本数据就好了。先看一下老司机是怎么翻车的。

分析一下fastq-dump命令：

输入： -A|--accession 序列号
处理中: Read Splitting, Full Spot Filters, Common Filters, Filters based on alignments, Filters for individual reads。基本都是些过滤参数。不太常用
输出： -O|--outdir 输出文件夹， -Z|--stdout 输出到标准输出， --gzip/--bzip2 输出为压缩格式
多文件选项：常用的就是--split-3
格式化：分为序列，质量等，不常用

所以基本上命令即使如下用法, 如果你觉得自己的空间够大就不需要用到--gzip参数。我就用了--gzip参数，节省空间还是蛮大的。参考命令：

for id in `seq 56 62`
do
    fastq-dump --gzip --split-3 -O /mnt/f/Data/RNA-Seq -A SRR35899${id}
done

我用的命令：

ls *sra | while read id; do fastq-dump --gzip --split-3 $id;done

我可以这么写是因为，当前工作目录下，所有的.sra文件正好就是SRR3589956 ~ SRR3589962。不然的话参考上一次的作业，使用一下其他正则，或者分步进行文件转换。

fastq-dump

压缩的文件不要着急解压，有很多bash命令能够直接用于压缩文件，如zgrep,zcat,zless,zdiff等。用这些z-tools能够节省大量磁盘空间。

fastq文件
注意命令行变化和输出的结果：

追加管道符和more命令

质量控制的基本概念

高通量测序之所以能够达到如此高的通量的原因就是他把原来几十M，几百M，甚至几个G的基因组通过物理或化学的方式打散成几百bp的短序列，然后同时测序。

测序流程
二代测序的最基本原理是边合成边测序（SBS），所以在建库的时候，短序列两段会加一些固定的碱基用于桥式PCR扩增，这些固定的碱基就是adapter(接头)。一般而言，还可以在接头加一些tag(index)，用于标识这个read来自于哪个物种。目前的单细胞测序为了省钱，譬如10X genomic技术，都是在一个pool里面加多种接头。

文库预备

在测序过程中，机器会对每次读取的结果赋予一个值，用于表明它有多大把握结果是对的。从理论上都是前面质量好，后面质量差。并且在某些GC比例高的区域，测序质量会大幅度降低。
因此，我们在正式的数据分析之前需要对分析结果进行质控。Jimmy大神就发帖专门指出”要充分了解你的测序数据--论QC的重要性“ 。

Fastq文件格式说明

FASTQ文件每个序列通常为4行，分别为：

Line 1 begins with a '@' character and is followed by a sequence identifier and an optional description (like a FASTA title line).
Line 2 is the raw sequence letters.
Line 3 begins with a '+' character and is optionally followed by the same sequence identifier (and any description) again.
Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as letters in the sequence.

序列标识以及相关的描述信息，以‘@’开头；
第二行是序列
第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加
第四行，是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

文件示例：（里面有SRR3589956.13-15共3个读段12行。NCBI的read格式，与Illumina稍微不同，感兴趣可以去查询资料）

@SRR3589956.13 D5VG2KN1:224:C4VAYACXX:5:1101:1789:2125 length=51
GGGGGGGTGAAGGGGGAATCAGACACTGTCCCAGTCTGTTGACAAGGACAA
+SRR3589956.13 D5VG2KN1:224:C4VAYACXX:5:1101:1789:2125 length=51
BBBFFFF7<BBFFFFFFBFFFFBBBBFFFBFFFFBFFFBBFBBFFBFBBFF
@SRR3589956.14 D5VG2KN1:224:C4VAYACXX:5:1101:1927:2136 length=51
CCTGAAGAATGTTGTTTTAGAATATTTTTGCCATCAAAATTTCTGATTTAC
+SRR3589956.14 D5VG2KN1:224:C4VAYACXX:5:1101:1927:2136 length=51
BBBFFFFFFFFFFIIIIIFIIFIFIIIIIIIIIIIIIIIIIIIIIIIIIIF
@SRR3589956.15 D5VG2KN1:224:C4VAYACXX:5:1101:1997:2159 length=51
CTCCATCCTTGTTTTTTGTATCAGTGGGAACACCTTCTGGAATTGCAGGTG
+SRR3589956.15 D5VG2KN1:224:C4VAYACXX:5:1101:1997:2159 length=51
BBBFFFFFFFFFFIIIIIFIIIIIIIIFIIIIFIIIIIIIFIIIIIIIIFI

Illumina格式：

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613 1:Y:18:ATCACG
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA

第一行序列名称
其中第一行的命名方式在v1.4后是 "@EAS139:\136:\FC706VJ:\2:\2104:\15343:\197393 1:\Y:\18:ATCACG"

Tag	描述
DJB775P1	the unique instrument name
248	the run id
D0MDGACXX	the flowcell id
7	flowcell lane
1202	tile number within the flowcell lane
12362	'x'-coordinate of the cluster within the tile
49613	'y'-coordinate of the cluster within the tile
1	the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
Y	Y if the read is filtered, N otherwise
18	0 when none of the control bits are on, otherwise it is an even number
ATCACG	index sequence

第二行是该读段的碱基序列
第三行+起始，可能加说明语句，也可能不加任何东西，一般用于更详细的说明第一行没能完全说明的信息。
第四行是质量打分。

关于质量编码格式
质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用，其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表：

质量打分
有多个打分系统，具体查询Fastq文件格式说明节段里资料链接。

FastQC质量报告

质量控制的软件很多，但是目前主要以fastqc为主。常见的用法：

fastqc seqfile1 seqfile2 .. seqfileN
常用参数：
-o： 输出路径
--extract: 输出文件是否需要自动解压 默认是--noextract
-t: 线程， 和电脑配置有关，每个线程需要250MB的内存
-c: 测序中可能会有污染， 比如说混入其他物种
-a: 接头
-q: 安静模式

FastQC有两种方式分析压缩的fastq文件

zcat SRR3589956_1.fastq.gz | fastqc -t 4 stdin
fastqc SRR3589956_1.fastq.gz

结果会得到一个html文件和一个zip压缩包。其中html文件用浏览器打开就能直观看到数据。

FastQC

绿色表示通过，红色表示未通过，黄色表示不太好。一般而言RNA-Seq数据在sequence deplication levels 未通过是比较正常的。毕竟一个基因会大量表达，会测到很多遍。
总体看来，测序可接受。下面这种（从FASTQC官网找到的实例）就要好好好好处理一下了

具体含义可以看这里

由于有14个结果，如果一个一个打开过去，一定会麻烦死，最好有一种一劳永逸的方法。

知乎的青山屋主写了一篇关于multiQC的教程（https://zhuanlan.zhihu.com/p/27646873)
，介绍聚合多个QC结果进行演示的方法。
利用conda安装软件尤其简单：

conda install multiqc
multiqc --help

使用也很方便，

# 先获取QC结果
 ls *gz | while read id; do fastqc -t 4 $id; done
# multiqc
multiqc *fastqc.zip --pdf

会有一个html文件用来了解总体情况

网友评论

本文标题：转录组入门（三）质量控制

本文链接：https://www.haomeiwen.com/subject/wwzggxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

转录组入门（三）质量控制

数据解压

质量控制的基本概念

Fastq文件格式说明

FastQC质量报告

相关文章

转录组入门（三）质量控制

转录组入门（3）：质量控制

使用scater包进行单细胞测序分析（二）：数据质量控制

RNAseq006 转录组入门(6)：reads计数

RNAseq007 转录组入门上游分析全流程

RNA-Seq数据分析——原始数据质量控制（QC）

htseq-reads计数___转载

1.转录组 | 上游分析（数据下载，比对，计数）

转录组学习三（数据质控）

转录组学习二（数据下载）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读