关于参考基因组和注释

作者: 果蝇饲养员的生信笔记 | 来源:发表于2020-03-27 19:24 被阅读0次

常用的参考基因组数据库：

1、Ensembl

是由European Bioinformatics Institute（EBI）与Wellcome Trust Sanger Institute（WTSI）共同合作开发的数据库项目。涵盖大量物种的参考基因组信息，并且数据更新及时，是参考基因组下载的好选择。

http://www.ensembl.org/index.html

2、NCBI

是National Center for Biotechnology Information的缩写，指美国国立生物技术信息中心。

http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data

3、UCSC

由University of California Santa Cruz（UCSC）创立和维护，主要包含了人类、小鼠、果蝇等多种常见动物的基因组信息。

http://genome.ucsc.edu

4、FlyBase

整合了果蝇遗传和基因组数据，并提供了基因和分子水平的检索和可视化。

http://flybase.org/

5、illumina的iGenomes打包了各物种齐全的参考数据信息。

https://support.illumina.com/sequencing/sequencing_software/igenome.html

以果蝇为例

一般在三个网站下载参考基因组：Ensembl、NCBI和UCSC：

参考基因组：对于人类来说，目前比较常用的参考基因组有hg19、hg38、GRCh37、GRCh38。hg系列是UCSC的叫法，GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一样的，hg19对应GRCh37，hg38对应GRCh38。

注释文件：三个来源同一版本的DNA序列虽然相同，但是它们的注释是不同的，更新频率也不一样。NCBI 的注释是refseq数据集，UCSC 和 Ensembl 注释都将其作为自己的一个子集，如UCSC 的refGene。而UCSC 的注释比较混乱，同样ID的基因会出现在不同链或不同染色体位置上。Ensembl的注释通常比UCSC更多（例如snRNA、miRNA、假基因，所以噪音更多一点），但是ID处理比较好，所以ID更容易进行转换。Ensembl还经常更新它的注释，更新一次作为一个版本发布。不同的来源的基因组序列名称不一样，1号染色体在 UCSC 中是 chr1，而在 Ensembl的基因组和GTF文件中是1。使用时序列和注释要统一，UCSC的基因组序列需要对应使用UCSC的gtf/gff3注释文件，Ensembl则对应使用其同一版本对应的gtf/gff3注释文件。GeneCode（http://www.gencodegenes.org/）也可以下载人类和小鼠的基因注释文件。

选择注释资源应遵循的原则：当进行强调可重复性和稳健的基因表达估计的研究时，优先选较为简单的基因组注释，如 RefGene。当进行更具探索性的研究时，更全面的注释更优，比如选择Ensembl。而UCSC则不太建议使用。

参考基因组：

2种组装形式：

toplevel - Includes haplotype information 包含了单倍体型和patch信息。单倍体型的信息会使得比对软件如STAR/hisat2/bowtie2（除了BWA）很难处理好。

primary_assembly - Single reference base per position 每个位置只有一个参考碱基。适合用于序列相似性搜索。STAR推荐使用Ensembl primary_assembly参考基因组。

3种重复序列处理方式：

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase) 将重复核苷酸转换为小写。主要的比对软件如BWA、bowtie2等都忽略这些soft-mask，直接把小写字母当做大写字母比对。

dna_rm - Repeats masked (converts repeats to to N’s) 用N代替重复区域和低复杂区。会给后续的比对带来很大的问题，不建议选用。

dna - No masking 不标记重复序列。推荐使用。

注释文件gtf/gff3：

.gtf - 对应primary assembly.fa。包含全部的注释，除了human和mouse这两个物种只包含primary assembly（不包含patch and haplotype）。

.chr.gtf - 只含染色体上的注释，不包含toplevel scaffolds（patch and haplotypes）。

.chr_patch_hapl_scaff - 对应toplevel。只出现在human和mouse这两个物种中，包含全部注释（包括patch and haplotype）。也可以用。

.abinitio.gtf - 基于.gtf增加了使用Genscan和其他abinitio prediction tools得到的一些注释信息。

推荐：

人类：Ensembl的primary_assembly，dna（或dna_sm效果相同），以及对应的.gtf（或.chr_patch_hapl_scaff含有其它信息）。

果蝇：Ensembl的toplevel，dna（或dna_sm效果相同），以及对应的.gtf。

GTF（General Transfer Format）：即GFF2。GTF是GFF便于传输版。分为9列，以Tab分割：

seqname - 染色体或scaffold的名称。

source - 生成这个特征的项目名称，或数据库来源。

feature - 特征类型名称，如gene、transcript、exon、CDS。

start end score

strand - 正链或负链+/-。

frame - 密码子的第几个碱基0/1/2。

attribute - 附加信息。

GFF3（General Feature Format）：

seqid - 染色体或scaffold的名称。

source - 生成这个特征的项目名称，或数据库来源。

feature - 特征类型名称，来自SOFA sequence ontology。

start end score

strand - 正链或负链+/-。

phase - 密码子的第几个碱基0/1/2。

attribute - 附加信息。A semicolon-separated list of tag-value pairs。

GTF和GFF之间的区别：

数据结构：都是由9列构成，分别是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的，第9列不同。

GFF第9列：都是以键值对的形式，键值之间用“=”连接，不同属性之间用“；”分隔，都是以ID这个属性开始。下图中有两个ID，说明是不同的序列。

GTF第9列：同样以键值对的形式，键值之间是以空格区分，值用双引号括起来；不同属性之间用“；”分隔；开头必须是geneid, transciptid两个属性。

来自Ensembl的gtf文件

来自UCSC的gtf文件

Ensembl：

https://asia.ensembl.org/Drosophila_melanogaster/Info/Index

果蝇：

ftp://ftp.ensembl.org/pub/release-99/fasta/drosophila_melanogaster/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/drosophila_melanogaster/

人类：

ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/

文件命名规律：<species>物种. <assembly>版本号. <sequence type>序列类型. <id type>基因组类型. <id>序列编号. fa.gz

TOPLEVEL：包含了所有的序列区域（比如染色体、非染色体以及用大量N填充的单倍型haplotypes或基因组补丁patches区域）。

PRIMARY ASSEMBLY：在上面toplevel的基础上，排除了单倍型或基因组补丁区域。如果看到目录中不存在这种类型的数据（比如这里果蝇就没有，而人类的基因组数据就存在），那么就意味着基因组不包含单倍型或基因组补丁区域，其实也就是等同于TOPLEVEL。

TOPLEVEL：人类（含patch and haplotype，对应.chr_patch_hapl_scaff），果蝇（不含patch and haplotype，对应.gtf）。

PRIMARY ASSEMBLY：人类（不含patch and haplotype，对应.gtf）。

Ensembl果蝇的参考基因组

Ensembl果蝇的注释文件

Ensembl人类的参考基因组

Ensembl人类的注释文件

UCSC：

http://genome.ucsc.edu/index.html

NCBI：

https://www.ncbi.nlm.nih.gov/genome/guide/human/

网友评论

本文标题：关于参考基因组和注释

本文链接：https://www.haomeiwen.com/subject/ogsruhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！