生信上游分析的文件格式拾遗

作者: Insc | 来源:发表于2022-05-21 12:10 被阅读0次

生信上游分析的文件格式拾遗
生信分析常见文件格式说明
生信分析常用文件格式
bulk RNA-Seq （6）数据挖掘的准备
Linux系统及服务器
fastq、fasta、bed、gtf、gff、sam、bam生
生信/物相关软件（1）
单细胞scRNA-seq学习笔记2-数据预处理
生信常用文件格式
NCBI公共数据库下载10x单细胞数据进行上游分析的全流程

生信上游分析的时候常常会遇到各种文件形式，有时候在进行多组学分析的时候常常会傻傻分不清。因此，想对常见的文件形式进行一下简单的罗列，以便于之后在分析时候能够准确地进行对应，随着分析内容的丰富会不断进行补充。
以下的文件类型按照A-Z的顺序进行展示。

BAM格式（.bam）

BAM文件是SAM的二进制文件，便于压缩进行储存。

BED格式（.bed）

BED是一种基因组注释文件格式，用以说明内含子，外显子，编码序列，非编码序列等的位置。
BED文件每行至少包括chrom，chromStart，chromEnd三列；另外还可以添加额外的9列，这些列的顺序是固定的。
BED文件必须的3列:
1.chrom - 染色体号; 例如，chr1，chrX。
2.chromStart - feature在染色体上起始位置. 从0开始算，染色体上第一个碱基位置标记为0。
3.chromEnd - feature在染色体上终止位置。染色体上前100个碱基片段的位置位置标记为：chromStart=0, chromEnd=100。实际上，第100个碱基不属于当前片段中，当前片段的碱基应该是0-99。所以在BED文件中，起始位置从0开始，终止位置从1开始。

BEDGRAPH格式（.bedgraph）

BedGraph格式文件是BED文件的扩展，是4列的BED格式，但是需要添加UCSC的Genome Browser工具里面显示的属性，但是一般就定义有限的几个属性即可。
track type=bedGraph name=track_labeldescription=center_label visibility=display_modecolor=r,g,baltColor=r,g,b priority=priorityautoScale=on|offalwaysZero=on|off gridDefault=on|offmaxHeightPixels=max:default:min graphType=bar|pointsviewLimits=lower:upper yLineMark=real-valueyLineOnOff=on|off windowingFunction=maximum|mean|minimumsmoothingWindow=off|2-16
有一点需要注意：These coordinates are [zero-based, half-open]

BIGWIG格式（.bw，.bigwig）

wig或bedGraph的索引二进制文件，也就是可以由这两种文件转换得到
在处理大型数据集时，bigWig文件的显示性能比常规的wig文件快得多

FASTA格式（.fasta）

FASTA 格式是一种基于ASCII 码的文本的格式，可以存储一个或多个核苷酸序列或肽序列数据。在FASTA格式中，每一个序列数据以单行描述开始（必须单行），后跟紧跟一行或多行序列数据。下一个序列数据也是如此，循环往复。

FASTA 格式文件中的每个序列信息由两个部分组成：
1.描述行 (The description line, Defline, Header or Identifier line): 以一个大于号(">")开头，内容可以随意，但不能有重复，相当于身份识别信息。
2.序列行 (Sequence Line)：一行或多行的核苷酸序列或肽序列，其中碱基对或氨基酸使用单字母代码表示。

>FASTA_seq1
ATCGATCGATCG
>FASTA_seq2
ATATATGCGCGC

注意：在FASTA 格式文件中，内容中间不允许有空行，建议所有文本行的长度小于 80 个字符，序列超过80个字符的部分紧跟着换到下一行。

FASTQ格式（.fastq）

Fastq格式是一种基于文本的存储生物序列和对应碱基（或氨基酸）质量的文件格式。最初由桑格研究所（Wellcome Trust Sanger Institute）开发出来，现已成为存储高通量测序数据的事实标准。

以Illumina Casava 1.8+ 的fastq格式为例。

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 #第一行储存测序时坐标等信息
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG # 第2行是测序得到的序列信息，一般用ATCGN来表示，其中N表示荧光信号干扰无法判断到底是哪个碱基
+ # 第3行以“+”开始，可以储存一些附加信息，一般是空的
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,, #第4行储存的是质量信息，与第2行的碱基序列是一一对应的，其中的每一个符号对应的ASCII值成为phred值，可以简单理解为对应位置碱基的质量值，越大说明测序的质量越好。不同的版本对应的不同

SAM格式（.sam）

SAM的全称是sequence alignment format。当测序生成的fastq文件比对到参考基因组后就会生成SAM文件，大部分的数据分析都是始于SAM文件。SAM文件由两部分组成，头部区和主体区，都以tab分列。
头部区：以’@'开始，体现了比对的一些总体信息。比如比对的SAM格式版本，比对的参考序列，比对使用的软件等。

头部区

@HD VN:1.0 SO:unsorted （排序类型）
头部区第一行：VN是格式版本；SO表示比对排序的类型，有unknown（default），unsorted，queryname和coordinate几种。samtools软件在进行行排序后不能自动更新bam文件的SO值，而picard却可以。
@SQ SN:contig1 LN:9401 （序列ID及长度）
参考序列名，这些参考序列决定了比对结果sort的顺序，SN是参考序列名；LN是参考序列长度；每个参考序列为一行。
例如：@SQ SN:NC_000067.6 LN:195471971
@RG ID:sample01 （样品基本信息）
Read Group。1个sample的测序结果为1个Read Group；该sample可以有多个library的测序结果，可以利用bwa mem -R 加上去这些信息。
例如：@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq
ID：样品的ID号 SM：样品名 LB：文库名 PU：测序以 PL：测序平台
这些信息可以在形成sam文件时加入，ID是必须要有的后面是否添加看分析要求
@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 （比对所使用的软件及版本）
例如：@PG ID:bwa PN:bwa VN:0.7.12-r1039 CL:bwa sampe -a 400 -f ZX1.sam -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq …/0_Reference/Reference_Sequence.fa ZX_HQ_clean_R1.fq.sai ZX_HQ_clean_R2.fq.sai …/2_HQData/ZX_HQ_clean_R1.fq …/2_HQData/ZX_HQ_clean_R2.fq
这里的ID是bwa，PN是bwa，VN是0.7.12-r1039版本。CL可以认为是运行程序@RG是上面RG表示的内容，后面是程序内容，这里的@GR内容是可以自己在运行程序是加入的

主体区

SAM的比对结果部分共是十一列以及一个可选列，分别代表：

1. QNAME: fastq的readID
2. FLAG: 用2的幂次进行累加的数，用来表示不同比对的情况
3. RNAME: 比对上的参考序列名，如果是*，表示未比对上。
4. POS: 1-Based的比对上的最左边的定位 例如：124057649
5. MAPQ: 比对质量 例如：60
6. CIGAR: Extended CIGAR string（操作符：MIDNSHP）比对结果信息；匹配碱基数，可变剪接等 例如：87M
7. MRNM: 相匹配的另外一条序列，比对上的参考序列名 例如：=
8. MPOS: 1-Based leftmost Mate Position （相比于MRNM列来讲意思和POS差不多） 例如：124057667
9. ISIZE: 插入片段长度 例如：200
10. SEQ: 和参考序列在同一个链上比对的序列（若比对结果在负义链上，则序列是其反向重复序列，反向互补序列） 例如：ATTACTTGGCTGCT
11. QUAL: 比对序列的质量（ASCII-33=Phred base quality）reads碱基质量值 例如：-8CCCGFCCCF7@E-
12. 可选的列 以TAG：TYPE：VALUE的形式提供额外的信息

WIG格式（.wig）

Wig的数据包括track line和data line。

track line 定义了track的属性，比如track type=wiggle_0，指定track为Wig track。
data line 主要由两部分格式组成，variableStep format和fixedStep format。variableStep format以一个声明开始，明确了染色体的序号，跨度(span)。后面跟两列数据，染色体开始的碱基位置，数据的值value（可以理解为覆盖度）。span参数可以将含有相同value的连续碱基包含在一起，使数据更加简洁。第二部分为fixedStep format，由声明和单列数据组成。声明部分和variableStep format中各变量的意义一样。wig中的value值可以是整数，实数，正数或者负数。只有指定的位置有value值，没有制定的位置则没有value，且不会在UCSU Genome Browser中作出图。