美文网首页
生信中常用的文件格式认识(一)-----fasta和fastQ

生信中常用的文件格式认识(一)-----fasta和fastQ

作者: 生信小工厂 | 来源:发表于2020-06-06 15:31 被阅读0次

    一.fasta格式

    fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。(百度百科)

    fasta格式解读

    fasta格式形式如下图,由两部分组成。


    fasta

    第一部分:以大于号“ > ” 开头,接着是序列的标 识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。注意区分大小写,且不能出现空格,空格表示序列标识符结束;随后是序列的描述信息。所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号由数字组成,具有唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。gi号后面是序列的标识符,标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。
    第二部分:是序列本身信息,使用既定的核苷酸或氨基酸编码符号,通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。一般每行60~80个字母。直到遇到下一个" > "结束。
    fasta格式在拓展的文件命名中,一般会约定俗成:

    fasta扩展文件名

    参考自http://www.biotrainee.com/thread-2703-1-2.html

    二.fastQ格式

    FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。
    它们都是以ASCII编码的。几乎是高通量测序的标准格式。NCBI Short Read Archive也是这格式,多了一些描述性词汇而已。(百度百科)

    fastq格式解读

    fastQ格式形式如下图,由四部分组成。


    fastQ

    第一部分:由'@'开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。
    第二部分:是序列。
    第三部分:由加号' + '开始,后面也可以跟着序列的描述信息。跟随着该read的名称(一般与@后面的内容相同),但有时可以省略,但“+”一定不能省。
    第四部分:是对第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等的。

    Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量,既-10lgP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在第四行中该碱基对应的质量代表值即为“?”,ASCii参考如下图

    ASCii

    fastQ文件用途:样品测序返回的数据一般存储为fastq文件,通常是压缩文件filename.fq.gz的格式,节省存储空间和传输时间。

    查看fastQ文件方法可参考https://cloud.tencent.com/developer/article/1520816

    相关文章

      网友评论

          本文标题:生信中常用的文件格式认识(一)-----fasta和fastQ

          本文链接:https://www.haomeiwen.com/subject/perxzhtx.html