美文网首页生信分析
fasta和fastq文件格式详解

fasta和fastq文件格式详解

作者: 熊猫人和熊猫猫 | 来源:发表于2021-01-23 17:45 被阅读0次

    1. fasta格式

    fasta格式是一种非常简单的储存序列的格式(主要是把序列储存到数据库中的一种形式),可以储存核酸序列(RNA/DNA)和氨基酸序列(AA),主要包括2个部分。
    1)以‘>’开始的一行主要储存“序列的描述信息”
    2)序列信息(这里储存的是氨基酸序列信息)

    举例人类血红蛋白α亚基的氨基酸序列:

    >sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 
    MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
    

    举例人类血红蛋白a亚基对应的mRNA序列:

    >gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
    CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTGG
    

    这条序列来自于NCBI的RefSeq数据库,所有来自于NCBI的序列都有一个gi号,是具有唯一性的数据库流水号,gb|AF349571.1是genebank编号的信息,后面是序列信息的详细描述(Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
    RefSeq(reference sequence database)基因参考序列数据库:是美国国家医学图书管下属国家生物技术信息中心开发的基因参考序列数据库,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。

    2. fastq格式

    下面是illumina平台的一条read信息:

    @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 1:N:18:ATCACG
    TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
    +
    FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
    # ST-E00126: 仪器编号
    # 128 : 运行编号
    # HJFLHCCXX:flowcell ID
    # 2 : flowcell的lane编号(通道编号)
    # 1101:lane的第1101块位置(tile编号)
    #  7405: tile有不同的分区,测序反应簇在tile内的x坐标
    #  1133: tile有不同的分区,测序反应簇在tile内的y坐标
    #  1 : 双端测序的read1  (分 1 和 2)
    #  N: 不是过滤的read (分 N 和 Y)
    # 18:控制数字
    # ATCACG:index序列信息
    
    序列的坐标信息指引
    • 第一行:记录测序时,序列的坐标信息
    • 第二行:测序得到的序列信息(分ATCGN5种情况,N代表不确定碱基类型)
    • 第三行:以“+”开始,可以储存一些附加信息
    • 第四行:以ASCII码形式储存碱基的质量信息(与第二行的碱基序列一一对应)

    如何理解第四行的碱基质量信息?
    测序仪在碱基读取过程中,荧光信号转化为碱基类型时,会不可避免得存在一定程度误判,因此每一个base calling都会伴随一个测序错误率P产生,用来判断该base的可信程度。为了fastq文件中,碱基质量值能和第二行的碱基序列信息一一对应,P必须以一个字符的形式存储。所以有了以下3步转换:

    1. P转换为Q
      Q=-10*log10(P)(P以10为底取对数,再乘以-10)
      当P=0.001时,Q=30(代表该碱基测序错误的机率为千分之一)
    2. Q转换为Phred值
      Phred=Q+C(C同测序仪和版本有关)
      例如:
    • illumina (1.3+) C=64
    • illumina (1.5+) C=64
    • illumina (1.8+) C=33
    1. 最后获得Phred值对应的ASCII字符
      ASCII码对照表链接:https://tool.oschina.net/commons?type=4
      就是我们看到的第四行 FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,(C=33时,?对应Q=30)

    attention⚠️:
    不过 NovaSeq将碱基质量分数做了进一步的简化(因为测序通量高,需要节约内存和存储资源),将碱基质量分数划分为几个区间(不同版本的仪器划分的区间不同,这里以3个为例):
    没有对应碱基:2
    低质量read: 12(Q<15)
    中质量read: 23(16<Q<29)
    高质量read: 37(Q>30)
    以上4种不同的质量情况对应ASCII码:# ,; F

    相关文章

      网友评论

        本文标题:fasta和fastq文件格式详解

        本文链接:https://www.haomeiwen.com/subject/ckkezktx.html