简介
Ensembl :http://www.ensembl.org/info/data/ftp/index.html,常用的参考基因组和GTF文件下载网站。
Ensembl提供的参考基因组有2种组装形式和3种重复序列处理方式,分别是primary
,toplevel
,unmasked
(dna),soft-maskked
(dna_sm),masked
(dna_rm)。一般选择dna.primary
和dna_sm.primary
-
Primary
:Primary assembly contains all toplevel sequence regions excluding haplotypes and patches.This file is best used for performing sequence similarity searches -
masked
:指所有重复去和低复杂度被N
代替的基因组序列,会造成信息的丢失。
soft-masked
基因组是指把所有重复区和低复杂度的序列用小写字母标出的基因组,主流比对软件BWA
,bowtie2
等都忽略soft- masked
直接把小写字母当做大写字母比对,所以使用soft-masked
与使用unmaked
比对效果相同。
Ensembl的基因注释文件与GeneCode(http://www.gencodegenes.org/)V26版本一致。
Ensembl中基因组和GTF文件中染色体名字都没有添加chr
,最好自行添加,保持和UCSC
或下游操作一致。
Ensembl数据库的BioMart:http://www.ensembl.org/biomart/martview为下载基因的功能信息、序列信息、结构信息、ID的转换提供便利。
下载页面可见XML
按钮,将XML中内容调整为一行,并在行尾添加一个单引号即可反复使用。如果想换一个物种,只需修改对应的Dataset name
即可。
来自:生信宝典
网友评论