美文网首页
RNA-seq 的fastq及fsata格式

RNA-seq 的fastq及fsata格式

作者: javen_spring | 来源:发表于2020-05-21 18:49 被阅读0次

    一、关于Fastq

    FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

    二、Fastq的格式

    • FASTQ文件中每个序列通常有四行:第一行,序列标识以及相关的描述信息,以‘@’开头;第二行是序列;第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
    • 下例中其中包含了1条reads的信息,FASTQ格式储存的序列信息,每1条reads的信息,可以分成4行:
    • 第1行主要储存序列测序时的坐标等信息

    @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
    @ 开始的标记符号
    ST-E00126:128:HJFLHCCXX 测序仪唯一的设备名称
    2 lane的编号
    1101 tail的坐标
    7405 在tail中的X坐标
    1133 在tail中的Y坐标

    • 第2行就是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。
    • 第3行以“+”开始,可以储存一些附加信息,一般是空的。
    • 第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。不同的版本对应的不同。

    例如

    @SEQ_ID
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    +
    !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    

    fastq的质量值:

    • 测序得到的是带有质量值的碱基序列(fastq格式)
    image.png

    Line1: @”开头, 唯一的序列ID标识符, 可选的序列描述内容, 以空格分开。
    line2: 序列字符(核酸/氨基酸) ;
    line3: “+”开头, 空或加第一行“@”后的相同内容;
    line4: 碱基质量字符, 每个字符对应第二行相应位置碱基或氨基酸的质量,
    可以按一定规则转换为碱基质量得分, 进而反映该碱基的错误率。
    这一行的字符数与第二行中的字符数必须相同。

    质量值 质量值的ASCII值查询表

    三、关于Fasta

    Fasta格式也称为Pearson格式,是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。

    四、Fasta格式

    Fasta格式首先以大于号“>”开头,接着是序列的标识符;换行后是序列的描述信息。换行后是序列信息,文件每行的字母一般不应超过80个字符。序列中允许存在空格,换行,空行,直到下一个大于号或文件结束,表示该序列的结束。
    fasta格式是一种非常简单的储存序列的格式,可以储存核酸序列(DNA/RNA)也可以储存蛋白质的氨基酸序列(Amino Acid sequence,简称AA序列),主要分成2个部分。1是以“>”为开始的一行主要储存的是序列的描述信息;剩下的是序列部分,中间,前后都可以有空格。序列部分按照官方文档的说明应该是小于120就行,一般70到80左右。其实实际操作中,程序处理的时候都是自动去掉空格和换行符,把序列读成1行再处理,所以,我也干过把整条人类染色体都放到一行的233举动,这么算下来,一行可以有240*10E6这么长!~~~

    >gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
    GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
    CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
    CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
    CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
    GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
    CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT
    

    五、人类参考基因组Fasta文件的组成部分说明
    https://www.jianshu.com/p/5b73773e30ef

    本文整理于:
    1、https://blog.csdn.net/ltbylc/article/details/24346231
    2、https://zhuanlan.zhihu.com/p/20714540

    相关文章

      网友评论

          本文标题:RNA-seq 的fastq及fsata格式

          本文链接:https://www.haomeiwen.com/subject/woytahtx.html