RNA-seq 的fastq及fsata格式

作者: javen_spring | 来源:发表于2020-05-21 18:49 被阅读0次

RNA-seq 的fastq及fsata格式
分析现代序列文件
RNA-seq(3):sra到fastq格式转换并进行质量控制
RNA-seq分析（STAR-RSEM-DESeq2）
下机数据校验md5值
56.《Bioinformatics Data Skills》之
fastq 文件介绍
【Linux 基础】七、数据格式实战及习题
转录组分析笔记（4）质量控制
NGS常用文件格式详解

一、关于Fastq

FASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

二、Fastq的格式

FASTQ文件中每个序列通常有四行：第一行，序列标识以及相关的描述信息，以‘@’开头；第二行是序列；第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加；第四行，是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。
下例中其中包含了1条reads的信息，FASTQ格式储存的序列信息，每1条reads的信息，可以分成4行：
第1行主要储存序列测序时的坐标等信息

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
@ 开始的标记符号
ST-E00126:128:HJFLHCCXX 测序仪唯一的设备名称
2 lane的编号
1101 tail的坐标
7405 在tail中的X坐标
1133 在tail中的Y坐标

第2行就是测序得到的序列信息，一般用ATCGN来表示，其中N表示荧光信号干扰无法判断到底是哪个碱基。
第3行以“+”开始，可以储存一些附加信息，一般是空的。
第4行储存的是质量信息，与第2行的碱基序列是一一对应的，其中的每一个符号对应的ASCII值成为phred值，可以简单理解为对应位置碱基的质量值，越大说明测序的质量越好。不同的版本对应的不同。

例如

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

fastq的质量值：

测序得到的是带有质量值的碱基序列(fastq格式)

image.png

Line1： @”开头，唯一的序列ID标识符，可选的序列描述内容，以空格分开。
line2：序列字符（核酸/氨基酸）；
line3： “+”开头，空或加第一行“@”后的相同内容；
line4：碱基质量字符，每个字符对应第二行相应位置碱基或氨基酸的质量，
可以按一定规则转换为碱基质量得分，进而反映该碱基的错误率。
这一行的字符数与第二行中的字符数必须相同。

质量值

质量值的ASCII值查询表

三、关于Fasta

Fasta格式也称为Pearson格式，是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

四、Fasta格式

Fasta格式首先以大于号“>”开头，接着是序列的标识符；换行后是序列的描述信息。换行后是序列信息，文件每行的字母一般不应超过80个字符。序列中允许存在空格，换行，空行，直到下一个大于号或文件结束，表示该序列的结束。
fasta格式是一种非常简单的储存序列的格式，可以储存核酸序列（DNA/RNA）也可以储存蛋白质的氨基酸序列（Amino Acid sequence，简称AA序列），主要分成2个部分。1是以“>”为开始的一行主要储存的是序列的描述信息；剩下的是序列部分，中间，前后都可以有空格。序列部分按照官方文档的说明应该是小于120就行，一般70到80左右。其实实际操作中，程序处理的时候都是自动去掉空格和换行符，把序列读成1行再处理，所以，我也干过把整条人类染色体都放到一行的233举动，这么算下来，一行可以有240*10E6这么长！~~~

>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT

五、人类参考基因组Fasta文件的组成部分说明
https://www.jianshu.com/p/5b73773e30ef

本文整理于：
1、https://blog.csdn.net/ltbylc/article/details/24346231
2、https://zhuanlan.zhihu.com/p/20714540