生信上游分析的时候常常会遇到各种文件形式,有时候在进行多组学分析的时候常常会傻傻分不清。因此,想对常见的文件形式进行一下简单的罗列,以便于之后在分析时候能够准确地进行对应,随着分析内容的丰富会不断进行补充。
以下的文件类型按照A-Z的顺序进行展示。
BAM格式(.bam)
BAM文件是SAM的二进制文件,便于压缩进行储存。
BED格式(.bed)
BED是一种基因组注释文件格式,用以说明内含子,外显子,编码序列,非编码序列等的位置。
BED文件每行至少包括chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。
BED文件必须的3列:
1.chrom - 染色体号; 例如,chr1,chrX。
2.chromStart - feature在染色体上起始位置. 从0开始算,染色体上第一个碱基位置标记为0。
3.chromEnd - feature在染色体上终止位置。染色体上前100个碱基片段的位置位置标记为:chromStart=0, chromEnd=100。 实际上,第100个碱基不属于当前片段中,当前片段的碱基应该是0-99。所以在BED文件中,起始位置从0开始,终止位置从1开始。
BEDGRAPH格式(.bedgraph)
BedGraph格式文件是BED文件的扩展,是4列的BED格式,但是需要添加UCSC的Genome Browser工具里面显示的属性,但是一般就定义有限的几个属性即可。
track type=bedGraph name=track_labeldescription=center_label visibility=display_modecolor=r,g,baltColor=r,g,b priority=priorityautoScale=on|offalwaysZero=on|off gridDefault=on|offmaxHeightPixels=max:default:min graphType=bar|pointsviewLimits=lower:upper yLineMark=real-valueyLineOnOff=on|off windowingFunction=maximum|mean|minimumsmoothingWindow=off|2-16
有一点需要注意:These coordinates are [zero-based, half-open]
BIGWIG格式(.bw,.bigwig)
wig或bedGraph的索引二进制文件,也就是可以由这两种文件转换得到
在处理大型数据集时,bigWig文件的显示性能比常规的wig文件快得多
FASTA格式(.fasta)
FASTA 格式是一种基于ASCII 码的文本的格式,可以存储一个或多个核苷酸序列或肽序列数据。在FASTA格式中,每一个序列数据以单行描述开始(必须单行),后跟紧跟一行或多行序列数据。下一个序列数据也是如此,循环往复。
FASTA 格式文件中的每个序列信息由两个部分组成:
1.描述行 (The description line, Defline, Header or Identifier line): 以一个大于号(">")开头,内容可以随意,但不能有重复,相当于身份识别信息。
2.序列行 (Sequence Line):一行或多行的核苷酸序列或肽序列,其中碱基对或氨基酸使用单字母代码表示。
>FASTA_seq1
ATCGATCGATCG
>FASTA_seq2
ATATATGCGCGC
注意:在FASTA 格式文件中,内容中间不允许有空行,建议所有文本行的长度小于 80 个字符,序列超过80个字符的部分紧跟着换到下一行。
FASTQ格式(.fastq)
Fastq格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。最初由桑格研究所(Wellcome Trust Sanger Institute)开发出来,现已成为存储高通量测序数据的事实标准。
以Illumina Casava 1.8+ 的fastq格式为例。
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 #第一行储存测序时坐标等信息
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG # 第2行是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基
+ # 第3行以“+”开始,可以储存一些附加信息,一般是空的
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,, #第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。不同的版本对应的不同
SAM格式(.sam)
SAM的全称是sequence alignment format。当测序生成的fastq文件比对到参考基因组后就会生成SAM文件,大部分的数据分析都是始于SAM文件。SAM文件由两部分组成,头部区和主体区,都以tab分列。
头部区:以’@'开始,体现了比对的一些总体信息。比如比对的SAM格式版本,比对的参考序列,比对使用的软件等。
头部区
@HD VN:1.0 SO:unsorted (排序类型)
头部区第一行:VN是格式版本;SO表示比对排序的类型,有unknown(default),unsorted,queryname和coordinate几种。samtools软件在进行行排序后不能自动更新bam文件的SO值,而picard却可以。
@SQ SN:contig1 LN:9401 (序列ID及长度)
参考序列名,这些参考序列决定了比对结果sort的顺序,SN是参考序列名;LN是参考序列长度;每个参考序列为一行。
例如:@SQ SN:NC_000067.6 LN:195471971
@RG ID:sample01 (样品基本信息)
Read Group。1个sample的测序结果为1个Read Group;该sample可以有多个library的测序结果,可以利用bwa mem -R 加上去这些信息。
例如:@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq
ID:样品的ID号 SM:样品名 LB:文库名 PU:测序以 PL:测序平台
这些信息可以在形成sam文件时加入,ID是必须要有的后面是否添加看分析要求
@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 (比对所使用的软件及版本)
例如:@PG ID:bwa PN:bwa VN:0.7.12-r1039 CL:bwa sampe -a 400 -f ZX1.sam -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq …/0_Reference/Reference_Sequence.fa ZX_HQ_clean_R1.fq.sai ZX_HQ_clean_R2.fq.sai …/2_HQData/ZX_HQ_clean_R1.fq …/2_HQData/ZX_HQ_clean_R2.fq
这里的ID是bwa,PN是bwa,VN是0.7.12-r1039版本。CL可以认为是运行程序@RG是上面RG表示的内容,后面是程序内容,这里的@GR内容是可以自己在运行程序是加入的
主体区
SAM的比对结果部分共是十一列以及一个可选列,分别代表:
1. QNAME: fastq的readID
2. FLAG: 用2的幂次进行累加的数,用来表示不同比对的情况
3. RNAME: 比对上的参考序列名,如果是*,表示未比对上。
4. POS: 1-Based的比对上的最左边的定位 例如:124057649
5. MAPQ: 比对质量 例如:60
6. CIGAR: Extended CIGAR string(操作符:MIDNSHP)比对结果信息;匹配碱基数,可变剪接等 例如:87M
7. MRNM: 相匹配的另外一条序列,比对上的参考序列名 例如:=
8. MPOS: 1-Based leftmost Mate Position (相比于MRNM列来讲意思和POS差不多) 例如:124057667
9. ISIZE: 插入片段长度 例如:200
10. SEQ: 和参考序列在同一个链上比对的序列(若比对结果在负义链上,则序列是其反向重复序列,反向互补序列) 例如:ATTACTTGGCTGCT
11. QUAL: 比对序列的质量(ASCII-33=Phred base quality)reads碱基质量值 例如:-8CCCGFCCCF7@E-
12. 可选的列 以TAG:TYPE:VALUE的形式提供额外的信息
WIG格式(.wig)
Wig的数据包括track line和data line。
- track line 定义了track的属性,比如track type=wiggle_0,指定track为Wig track。
- data line 主要由两部分格式组成,variableStep format和fixedStep format。variableStep format以一个声明开始,明确了染色体的序号,跨度(span)。后面跟两列数据,染色体开始的碱基位置,数据的值value(可以理解为覆盖度)。span参数可以将含有相同value的连续碱基包含在一起,使数据更加简洁。第二部分为fixedStep format, 由声明和单列数据组成。声明部分和variableStep format中各变量的意义一样。wig中的value值可以是整数,实数,正数或者负数。只有指定的位置有value值,没有制定的位置则没有value,且不会在UCSU Genome Browser中作出图。
网友评论