生信数据分析常见格式(一)

作者: Biofantasy | 来源:发表于2018-09-12 14:49 被阅读118次

    前言

    首先,这篇文章介绍的文件格式格式:基因组fasta、测序数据fasta、基因组不同软件构建的索引文件index、fastq、sam、bam、bed、gtf、gff、vcf、bigwig、wiggle


    image.png

    | fasta格式:

    测序数据fa格式:一般为fa.gz文件

    ## 文件格式可为   #.fasta  #.fa  #.fna  #.faa
    ##  >gi|  gi号   |来源标识|   序列标识     |    序列描述
        >gi|187608668 | ref | NM001043364.2 | Bombyx mori moricin(Mor),mRNA
        AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCT
        GGTGTCATGTAGTACAGCCGCTCC
    

    基因组参考序列fa格式:

        fxue@pc-System-Product-Name:/public/reference/genome/hg38$ ls -lh
        total 3.1G
        -rwxr-xr-x 1 root root 3.1G 7月   5 00:42 hg38.fa
        -rwxr-xr-x 1 root root  19K 7月   4 23:59 hg38.fa.fai
    ## .fa文件内容  序列中有N 大写字母 小写字母
        >chr1
        NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
        CACCTCAGGAGCtgggggtggtggtgggggcggtgggggtggtgTTAGTA
        ......
        >chr10
        ......
        >chr11
        ......
        >chr11_KI270721v1_random
        ......
    ## .fa.fai文件内容 lie
    ##  编号       xx号          xx.     xx.    xx.     xx.     xx. 
        chr1    248956422       6       50      51
        chr10   133797422       253935564       50      51
        chr11   135086622       390408942       50      51
        chr11_KI270721v1_random 100316  528197322       50      51
        chr12   133275309       528299652       50      51
        chr13   114364328       664240475       50      51
        chr14   107043718       780892097       50      51
        chr14_GL000009v2_random 201709  890076715       50      51
    

    | bowti构建的索引文件:

    -rwxr-xr-x 1 root root 974M 7月   5 04:40 hg38.1.bt2
    -rwxr-xr-x 1 root root 728M 7月   5 04:30 hg38.2.bt2
    -rwxr-xr-x 1 root root  15K 7月   5 04:47 hg38.3.bt2
    -rwxr-xr-x 1 root root 728M 7月   5 04:47 hg38.4.bt2
    -rwxr-xr-x 1 root root  13K 7月   5 04:47 hg38.bowtie_index.log
    -rwxr-xr-x 1 root root 974M 7月   5 04:21 hg38.rev.1.bt2
    -rwxr-xr-x 1 root root 728M 7月   5 04:12 hg38.rev.2.bt2
    

    | bwa构建的索引文件:

    -rwxr-xr-x 1 root root  21K 7月   5 05:47 hg38.amb
    -rwxr-xr-x 1 root root  22K 7月   5 05:47 hg38.ann
    -rwxr-xr-x 1 root root 6.5K 7月   5 05:50 hg38.bwa_index.log
    -rwxr-xr-x 1 root root 3.0G 7月   5 05:47 hg38.bwt
    -rwxr-xr-x 1 root root 766M 7月   5 05:50 hg38.pac
    -rwxr-xr-x 1 root root 1.5G 7月   5 05:37 hg38.sa
    

    | hisat构建的索引文件:

    -rwxr-xr-x 1 root root 974M 7月   5 03:13 genome.1.ht2
    -rwxr-xr-x 1 root root 728M 7月   5 03:05 genome.2.ht2
    -rwxr-xr-x 1 root root  15K 7月   5 03:13 genome.3.ht2
    -rwxr-xr-x 1 root root 728M 7月   5 03:19 genome.4.ht2
    -rwxr-xr-x 1 root root 1.3G 7月   5 03:37 genome.5.ht2
    -rwxr-xr-x 1 root root 741M 7月   5 03:26 genome.6.ht2
    -rwxr-xr-x 1 root root    8 7月   5 03:26 genome.7.ht2
    -rwxr-xr-x 1 root root    8 7月   5 03:37 genome.8.ht2
    -rwxr-xr-x 1 root root 1.3K 7月   5 03:37 make_hg38.sh
    

    | salmon构建的索引文件:

    fxue@pc-System-Product-Name:/public/reference/index/salmon/hg38_index$ ls -lhtotal 3.1G
    -rwxr-xr-x 1 root root 1.7G 7月  14 21:50 hash.bin
    -rwxr-xr-x 1 root root  357 7月  14 21:49 header.json
    -rwxr-xr-x 1 root root  115 7月  14 21:52 indexing.log
    -rwxr-xr-x 1 root root 9.4K 7月  14 21:52 quasi_index.log
    -rwxr-xr-x 1 root root  121 7月  14 21:49 refInfo.json
    -rwxr-xr-x 1 root root  36M 7月  14 21:52 rsd.bin
    -rwxr-xr-x 1 root root 1.1G 7月  14 21:51 sa.bin
    -rwxr-xr-x 1 root root 287M 7月  14 21:51 txpInfo.bin
    -rwxr-xr-x 1 root root   96 7月  14 21:49 versionInfo.json
    

    | star构建索引文件

    | subread构建的索引文件:

    -rwxr-xr-x 1 root root 766M 7月   5 06:27 hg38.00.b.array
    -rwxr-xr-x 1 root root 5.0G 7月   5 06:45 hg38.00.b.tab
    -rwxr-xr-x 1 root root  29K 7月   5 06:45 hg38.files
    -rwxr-xr-x 1 root root    0 7月   5 06:45 hg38.log
    -rwxr-xr-x 1 root root  14K 7月   5 06:27 hg38.reads
    

    | fastq格式文件:

    第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
    第二行为序列信息
    第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
    第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

    ## 文件格式可为  #.fastq  #.fq
    -rwxr-xr-x 1 root root     300308 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.html
    -rwxr-xr-x 1 root root     401515 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.zip
    -rwxr-xr-x 1 root root 2899602923 7月   4 23:57 7E5240_L1_A001.L1_1.fastq.gz
    ## 打开 7E5240_L1_A001.L1_1.fastq.gz
    ## @仪器号:运行号:flowcell ID号:Lane号:Tile号:X坐标:Y坐标  Read号:是否过滤:质控号:index序列
       @HISEQ: 820  :CBD38ANXX    :   1  :  1101 : 1233: 2135    1  :    N   :   0  : ATCACGA
       CTGAGCTGCTCCTTCACCCAGACCTCGATATGCTTGTTCCACTTCATGGTGAACACATAGAAGGCATAGGCCAGCAGCAGCAGNAGG
       +
       BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF</<<<
    

    | 基因组索引文件格式:gtf2文件

    GTF(Gene Transfer Format)格式是借鉴于GFF2格式,也被称为GFF2.5,大部分字段的定义是和GFF2相同的,只是每行的第九列必须带有如下四个域,具体为gene_id value; transcript_id value; 这样的设计是为了适应一个基因的多个转录本这种情况。GTF格式主要用来注释基因:

    [图片上传失败...(image-8d42c2-1536734614697)]

    | gff3文件

    gff主要用来注释基因组

    序号 GTF GFF
    1 Sequid 参考序列ID Seqname 序列名称 染色体ID/contig ID
    2 Source 注释来源 指明产生此文件的软件或方法 Source 注释来源 预测软件名/公共数据库
    3 Type 类型
    4 Start 开始位点 从1开始计数 Start 开始位点 从1开始计数
    5 End 结束位点 End 结束位点
    6 Score 得分 Feature 结构特点
    7 Strand 正/负链 Score 得分
    8 Phase 步进 + 正链,- 负链, ·无需指定正负链 Strand 正/负链 + 正链,- 负链
    9 Attributes 属性 frame 密码子偏移
    ##两种格式的转换
    #gff2gtf
    gffread my.gff3 -T -o my.gtf
    #gtf2gff
    gffread merged.gtf -o- > merged.gff3
    

    | SAM文件

    SAM(sequence alignment/map format):由标头注释部分和比对部分组成

    | sam标头注释部分
    ##  @HD,说明符合标准的版本、对比序列的排列顺序
        @HD VN:1.3                      SO:coordinate
        @SQ SN:chr10                    LN:135534747   ## LN:参考序列的长度
    ##  @SQ,参考序列说明
        @SQ SN:chr7_gl000202_random     LN:40103
        @SQ SN:chrUn_gl000249           LN:38502
        @SQ SN:chrX                     LN:155270560
    ##  @RG,比对上的序列(read)说明
    ##  @CO,任意的说明信息。
    ##  @PG,使用的比对程序说明
        @PG ID:bwa  PN:bwa  VN:0.7.15-r1140 CL:/home/jianmingzeng/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M /home/jianmingzeng/reference/index/bwa/hg19 control.clean.R1.fq.gz                           control.clean.R2.fq.gz
    
    | 比对部分
    ##字段 [            1               ]  [2 ] [ 3 ] [ 4 ]  [5] [ 6  ] [ 7 ]  [   8   ] [ 9 ]
    D00691:39:C7HGRANXX:7:1102:7445:18770  99  chr10  93614  60  126M    =     93621     133   D00691:39:C7HGRANXX:7:1102:7445:18770  147 chr10  93621  60  126M    =     93614     -133   
    D00691:39:C7HGRANXX:7:2302:14294:49245 323 chr10  94741  5   56H70M  chr9  140136176 0    
    
    ##[        10.         ]  [                              11                             ]
    CCAC...CCTC  BBBB...FFFF  NM:i:0  MD:Z:126  AS:i:126  XS:i:106  XA:Z:chr18,-75762,126M,4;
    
    11个字段 名称 含义 解释
    [1] QName 比对片段的编号
    [2] Flag 常用&高效 保存多个布尔特征值
    [3] Rname 比对到参考序列上的染色体号 若无法比对,则是*
    [4] Position 比对上的位置 从1开始计数,未比对上则为0
    [5] Mapq 比对的质量分数 越高说明该read比对到参考基因组上的位置就越准确
    [6] Cigar 简要比对信息表达式 其以参考序列为基础,使用数字加字母表示比对结果。
    [7] Mrnm(chr) 下一片段比对上的参考序列编号
    [8] Mate position 下一片段比对上的位置
    [9] Isize Template的长度 如果不可用,此处为0
    [10] Sequence
    [11]
    [6] 解释 翻译
    M match或 mismatch
    I Insert
    D Deletion
    N Skipped
    S Soft cliping
    H Hard ciliping
    P Padding
    = Match
    X Mismatch 错配,位置一一对应
    [11] 解释 翻译
    AS Alignment score generated by aligner 比对得分
    NM Edit distance to the reference, including ambiguous bases but excluding clipping 对引用的编辑距离,包括不明确的基,但不包括剪切
    MD String for mismatching positions. Regex : [0-9]+(([A-Z]|^[A-Z]+)[0-9]+)*10.
    NH Number of reported alignments that contains the query in the current record
    X? Reserved fields for end users

    | bam文件

    | bed文件

    bed(Browser Extensible Data):是ucsc 的genome browser的一个格式,描述注释的数据。bed有3个要求的字段(基本列)和9个额外的字段(附加列)

    #[1]    [ 2 ]   [ 3 ]   [5] 
    chrM    13357   13651   trf 2   162.5   2   67  19  173 47  0   0   52  1.00    TA
    chrM    13436   13585   trf 7   23.9    7   66  28  61  46  0   0   53  1.00    ATTATAA
    chrM    13406   13658   trf 9   28.7    9   66  15  63  45  0   0   54  0.99    TATTATATT
    ## 可选列
    #1 name #feature的名字
    #2 score 0-1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定显示的灰度水平,数字越大,灰度越高
    #3 strand定义链的+/—
    #4 thickStart #feature的起始
    #5 thickEnd #feature的终止
    #6 termRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb属性是设置为'On”, 这个RBG 值将 决 定数据的显示的颜色在BED 线。
    #7 blockCount #exon个数
    #8 blockSize #每个exon的大小
    #9 blockStarts #以chromStart为起点的各个exon的起始点
    

    | Bigbed

    | vcf文件

    vcf(Variant Call Format):格式是用于表示突变信息的文本格式,可以用来表示SNV(single nucleotide variants),INDEL( insertions/deletions), CNV(copy number variants )and SV(structural variants)等。VCF格式同样是分为两大部分,一部分是注释描述信息,一部分是具体的突变信息,其中注释信息是以##开头的。

    来源:samtools、GATK

    应用:

    #CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
    chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
    chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
    chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
    chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255
    #1 CHROM 即chromosome, 染色体名称;
    #2 POS 即position, 发生突变的参考序列的位置(从1开始计数);
    #3 ID 突变的名称;
    #4 REF 参考序列POS上的碱基;
    #5 ALT 发生突变的碱基,多个的话以,连接, 可选符号为ATCGN*,大小写敏感;
    #6 QUAL 基于Phred格式的表示ALT的质量,也可以理解为可靠性;
    #7 FILTER 过滤后的状态,即按照可靠性进行筛选;
    #8 INFO 额外信息,可结合注释描述信息进行理解
    

    | Bigwig/Wiggle

    https://wiki.bits.vib.be/index.php/Category:Formats
    未完待续....

    相关文章

      网友评论

        本文标题:生信数据分析常见格式(一)

        本文链接:https://www.haomeiwen.com/subject/ttzpgftx.html