文章很多内容参考网上各处资源,整理出来方便学习
数据格式:作用主要是储存,tabix索引,浏览器展示
1.BCL: 测序下机文件格式
2.FASTQ
FASTQ files explained (illumina.com)
单向测序,demultiplex后一个样本一个fastq文件。双向测序一个样本两个fastq文件。

第一行:序列识别码
第二行:碱基序列
第三行:+分隔符
第四行:碱基质量分数(Phred +33 encoded),用ASCⅡ码表示数字
3.BED(Browser Extensible Data)
Genome Browser FAQ (ucsc.edu)
将对象展示在一条特征轴上,有点类似于常见的基因内部成分图


3行必需:对象的染色质编号、起始位点、终止位点
9行非必需:对象名称、灰度值、正反、加粗起点、加粗终点、RGB、分块数(可表示exons)、块大小、块起点
4.SAM(Sequence Alignment/Map):存储比对信息,兼容性强,支持多种测序和比对方式,是比对和下游分析的中间,可用于变异检测、基因型分析等。
The Sequence Alignment/Map format and SAMtools - PMC (nih.gov)
GitHub - samtools/hts-specs: Specifications of SAM/BAM and related high-throughput sequencing file formats
相关软件:Related Software (sourceforge.net)
分为header和比对区,header区有文件原始信息HD、参考序列SQ、测序片段分组RG、测序软件PG、其他文本CO。

比对区必需的有11列,tab分隔,分别为测序片段名称,FLAG,参考序列名,最左端在参考序列的位置,比对分数,CIGAR,下一个片段的主要比对序列,下一个片段的主要比对序列的位置,匹配到序列上的长度,匹配到的序列,phred-scaled quality
FLAG通过十进制转二进制描述该片段与序列的比对关系,CIGAR描述每个碱基的匹配情况
5.VCF( Variant Call Format):主要储存snp、cnv、indel以及结构变异等突变信息。
VCFv4.2.pdf (samtools.github.io)
Genome Browser VCF+tabix Track Format (ucsc.edu)

分为metadata,header,data lines
metadata以##开始,描述了一些自定义的表达方式,如INFO,FORMAT,FILTER。具体表示的内容可以与data lines参考理解,也可以看一下参考的链接文件。
data lines每一行是一个ref的突变位点,具体内容,有突变位置信息,突变信息,以及样本信息。
6.GFF3 and GTF
GFF3 - GMOD
GFF2 - GMOD
GTF2.2: A Gene Annotation Format (wustl.edu)
网友评论