美文网首页🍊码农
文件格式__小论fasta&fastq

文件格式__小论fasta&fastq

作者: 青鳉君 | 来源:发表于2018-04-06 17:38 被阅读16次

    @如有侵犯您的权益请联系me,感谢分享!

    参考自

    >微信公众号-高通量测序技术《生物信息学基础100问—— 第1 ~ 5问问题及答案》生信基础100问第1-5

    >度狗百科 fastQ格式

    >生信技能树生信人必会数据格式持续收集(有fastq、fasta、VCF、SAM格式)

    1.作用目的:

    $ fasta: 多用于储存碱基/AA序列及序列在数据库中的信息。

    (一般为入库数据,单纯的蛋白/核酸序列)

    $ fastq:储存碱基/AA序列及其测序相关信息

    (原始数据,包含了仪器本身记录)

    2.制式区别:

    $fastq:

    一般包含四行信息

    1.以@开始,包含序列测序时的坐标信息、仪器信息等。

    2.序列内容

    3.以+开始,可储存一些附加信息,一般多为空。

    4.测序质量信息

    eg1

    >第一行 :  @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133

    # ‘:’为分隔标志

      @,开始的标记符号;

      ST-E00126:128:HJFLHCCXX,测序仪唯一的设备名称;

      2,lane的编号;

      1101,tile的编号;

      7405,在tile中的X坐标;

      1133,在tile中的Y坐标

      (  lane指测序板上泳道,tile是板上测序孔 )

    >第二行:

        表序列信息,一般使用ATCGN,N表示无法判断是哪种碱基(因荧光信号受干扰)

    >第三行 :

      +开头,后为一些补充说明信息,多为空。

    >第四行:

        存储质量信息,与第二行的碱基序列一一对应。即表示对应位置碱基的测序质量值。

        用ASCII码表示,值越大,质量越好。ASCII码由phred值经过换算而来。phred值则通过测序错误概率转换而来。有phred33和phred64两种体系。

        phred值用以评估bp测序质量,测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值P。如P=1%,将P取log10,再乘以-10,所得结果为Q  。 

      将Q+33 or +64 得值即为phred。每个phred有对应的ASCII码,如phred值=53对应A码为5。

      (看数值大小范围能知体系类型)

      * Phred33 & Phred64 由来是illumina公司的锅,近年来新数据多为Phred33体系

      !trimmomatic软件能自动识别数据的质量类型

    eg2

    NCBI看到的FASTQ格式如下:

    @HWUSI-EAS100R:6:73:941:1973#0/1

    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

    +HWUSI-EAS100R:6:73:941:1973#0/1

    !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

    >第一行:

      #0,若输入样本为多样本混合,则该标志代表样本的编号,用来区分各样本的reads。

      /1,代表paired end中的前一个read。

    >第四行:

      phred值为63对应的ASCII码为“?”

      一般地,碱基质量从0-40,既ASCII码为从 “!”(0+33)到“I”(40+33)。

    ASCII码映射图:

    Dec <---> Chr

    eg3

    (Y表示此数据已经过过滤?18??) 条形码-> barcode

    $fasta:

    包含有两类信息。

    第一行:序列描述信息,一般以 >开头。包括数据库中的编号、序列名称、序列类型。

    第二行:序列信息

    示例1.核酸序列文件(mRNA序列统一以T代替U)

    >gi|13650073|gb|AF349571.1|Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds

    CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG

    # 以‘|’符号作区隔

      > ,开头标记

      gi|13650073, 基因ID

      gb|AF349571.1, genebank中的编号

      Homo sapiens hemoglobin alpha-1 globin chain (HBA1), 基因名称

      mRNA, complete cds  序列类型

    示例2 蛋白质文件

    >sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1

    MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`

    # 以‘|’符号作区隔

      >, 开头标记

      sp|P69905 ,蛋白数据库编号

      HBA_HUMAN Hemoglobin subunit alpha,  蛋白质名称

      OS=Homo sapiens,所属物种

      GN=HBA1,基因名称

    (MVLSPA……指代氨基酸类型?)

    扩展名:

    *题外:

    SRA数据转fastq文件的一些note:

    (当使用trinity时亦会自动给出操作提示)

                                                                          END

    #错误与缺漏望不吝赐教~

    >>>

    下期预计讨论fasta与fastq的格式互转,并研究脚本“fasta_stats.pl & fastq_stats.pl”

    相关文章

      网友评论

        本文标题:文件格式__小论fasta&fastq

        本文链接:https://www.haomeiwen.com/subject/xdzdhftx.html