美文网首页生信基础知识
生信各种数据的格式及样本

生信各种数据的格式及样本

作者: 纵春水东流 | 来源:发表于2019-07-20 13:57 被阅读3次

    参考:
    http://genome.ucsc.edu/FAQ/FAQformat.html
    http://software.broadinstitute.org/cancer/software/genepattern/file-formats-guide#GLAD
    NGS文件格式(二代测序文件格式)(next generation sequencing)

    常见格式 Fastq SAM VCF Wig BED GTF/GFF3

    1、Fasta(一般是基因组文件)

    >seq_1 description
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    >seq_2
    ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
    

    质量分数文件

    >seq_1 description
    54 57 54 57 48 48 48 48 57 57 57 47 47 41 42 41 47 57 57 57 57 47 44 44 44 44 50 50
    54 57 57 46 43 37 44 43 57 37 37 37 57 57 57 57 52 52 52 52 57 50 47 47 52
    >seq_2
    52 47 52 52 50 50 50 50 50 57 57 54 57 57 57 57 57 57 57 46 46 57 57 57 57 57 57 57
    57 57 57 57 57 57 57 57 57 57 57 57 29 29
    

    2、sanger fastq

    @seq_1
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
    +
    !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
    @seq_2
    ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
    +
    208DA8308AD8SF83FH0SD8F08APFIDJFN34JW830UDS8UFDSADPFIJ3N8DAA
    

    质量分数文件

    SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS......................
    ..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
    ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................
    !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
    |                         |    |        |                              |                     |
    33                        59   64       73                            104                   126
    
    S - Sanger        Phred+33,  raw reads typically (0, 40)
    X - Solexa        Solexa+64, raw reads typically (-5, 40)
    I - Illumina      Phred+64,  raw reads typically (0, 40)
    

    3、Illummina fastq

    
    

    4、Paired files

    Fastq file 1
    @molecule_1 1st_read_from_pair
    @molecule_2 1st_read_from_pair
    @molecule_3 1st_read_from_pair
    
    Fastq file 2
    @molecule_1 2nd_read_from_pair
    @molecule_2 2nd_read_from_pair
    @molecule_3 2nd_read_from_pair
    
    Interleaved Fastq file
    @molecule_1 1st_read_from_pair
    @molecule_1 2nd_read_from_pair
    @molecule_2 1st_read_from_pair
    @molecule_2 2nd_read_from_pair
    @molecule_3 1st_read_from_pair
    @molecule_3 2nd_read_from_pair
    

    5、

    
    

    6、

    
    

    7、

    二代测序过程见末尾
    二代测序过程


    image.png
    image.png

    相关文章

      网友评论

        本文标题:生信各种数据的格式及样本

        本文链接:https://www.haomeiwen.com/subject/hmoklctx.html