美文网首页rna_seq
【施工中】常用数据库下载参考基因组及注释文件

【施工中】常用数据库下载参考基因组及注释文件

作者: 猫叽先森 | 来源:发表于2020-06-18 01:26 被阅读0次

参考:Jimmy老师博客:基因组各种版本对应关系
目前常用的人类参考基因组是GRCh37和GRCh38,在三大常用数据库对应关系如下:

NCBI UCSC ENSEMBL
GRCh37 hg19 release_59/61/64/68/69/75
GRCh38 hg38 release_76/77/78/.../99/100

ENSEMBL

1. 下载人类GRCh38参考基因组及注释文件

1.1 打开ENSEMBL官方主页http://asia.ensembl.org/index.html,如下图,点击Human

ENSEMBL主页

1.2 点击Download DNA sequence (FASTA),进入参考基因组文件的ftp下载地址:
ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/

GRCh38.p13页面

1.3 进入ftp下载页面后,选择按大小排序,下载参考基因组文件Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

参考基因组文件ftp下载页面
在这个页面的最下端有一个README文件,记录了有关上面所有文件的详细信息,有兴趣的同学可以自行查阅。

1.4 回到GRCh38.p13页面,点击Download GTF,进入参考基因组注释文件ftp下载地址:ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/

GRCh38.p13页面

1.5 进入ftp下载页面后,
下载Homo_sapiens.GRCh38.100.chr.gtf.gz
或者Homo_sapiens.GRCh38.100.gtf.gz

参考基因组注释文件ftp下载页面

1.6 回到GRCh38.p13页面,点击Download FASTA ,进入ftp下载地址:
ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/

GRCh38.p13页面 ftp下载
可以看到,有一系列文件夹,其中dna文件夹,就是步骤1.2演示的参考基因组文件所在的文件夹,而cdna文件夹,存放的则是参考转录组文件

1.7 进入cdna文件夹,下载Homo_sapiens.GRCh38.cdna.all.fa.gz

参考转录组文件ftp下载页面

至此,我们就下载了人类参考基因组GRCh38版本的

2. 下载人类GRCh37参考基因组及注释文件

2.1 打开ENSEMBL官方主页http://asia.ensembl.org/index.html,如下图,点击Still using GRCh37?

ENSEMBL主页GRCh37 GRCh37页面 GRCh37页面 GRCh37.p13页面

可以看到,这个页面就跟前面GRCh38.p13下载页面非常的类似了,我们可以点击Download DNA sequence (FASTA)进入到GRCh37的参考基因组文件Ftp下载地址:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/
我们可以点击Download genes, cDNAs, ncRNA, proteins (FASTA)进入到GRCh37版本各种Fasta格式文件ftp下载地址:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/
可以下载到GRCh37版本参考基因组文件参考转录组文件

人类参考基因组GRCh37版本

NCBI

UCSC

GENCODE

相关文章

网友评论

    本文标题:【施工中】常用数据库下载参考基因组及注释文件

    本文链接:https://www.haomeiwen.com/subject/nfzexktx.html