FastQ
fastq是scRNASeq中最常见的原始数据格式。所有scRNASeq都是双端测序
fastq格式BAM
bam文件存储映射后reads信息,bam文件可以转换成人可以阅读的sam文件,这种转换通过samtools进行。bam/sam文件中含有样品制备信息、测序、比对、tab分割的单个read比对信息。
bam文件信息某些测序设备会自动将您的reads映射到标准基因组,并提供BAM或CRAM格式的文件。 通常,它们不会在基因组中包含ERCC序列,因此在BAM / CRAM文件中不会映射任何ERCC读数。 要量化ERCC(或任何其他遗传改变),或者如果您只想使用与通用管道中的比对算法不同的算法(通常已过时),则需要将BAM / CRAM文件转换回FastQ。
CRAM
cram与bam文件类似,只是在开头多了用于映射的参考基因组信息。
cram和bam文件可以互相转换,但很费内存。
基因组文件(GTF、FASTA)
测序数据的比对需要参考基因组文件和基因组注释文件(GTF或GFF格式)。GTF文件包含基因组、外显子和转录本的注释。从Ensemble、NCBI或者UCSC都可以下载到这些文件。GTF文件内包含的信息见下表。
网友评论