美文网首页学习
生信流程搭建(二)Ensembl数据库下载常用参考序列与对应的g

生信流程搭建(二)Ensembl数据库下载常用参考序列与对应的g

作者: Geekero | 来源:发表于2020-07-28 13:15 被阅读0次

    在下载参考序列的时候遇到了很多大坑,对于一些不理解的版本信息,极力推荐去官网的ftp下载目录中查看Readme文档

    一、下载参考序列fasta及注释文件gtf、线粒体MT

    人类基因组版本对应关系

    NCBI Ensembl UCSC
    GRCh36 release_52 hg18
    GRCh37 release_59/61/64/68/69/75 hg19
    GRCh38 release_76/77/78/80/81/82 hg38

    GFF(general feature format):这种格式主要是用来注释基因组。 现大部分利用的是第三版,即gff3。

    GTF(gene transfer format):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf2 。

    以homo sapiens为例,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看现有的基因版本和一些配套的信息。

    基因组各种版本对应关系:http://www.bio-info-trainee.com/1469.html
    常见基因组下载完毕后如下大小:

    常见基因组下载完毕后的大小

    1.1 下载ftp地址(2019/10/29)

    # 人类homo GRCh38
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
    wget ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/Homo_sapiens.GRCh38.98.gtf.gz
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.chromosome.MT.fa.gz
    
    # 人类homo hg19
    wget ftp://ftp.ensembl.org/pub/grch37/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
    wget ftp://ftp.ensembl.org/pub/grch37/release-98/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
    wget ftp://ftp.ensembl.org/pub/grch37/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.chromosome.MT.fa.gz
    
    # 小鼠musculus GRCm38
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
    wget ftp://ftp.ensembl.org/pub/release-98/gtf/mus_musculus/Mus_musculus.GRCm38.98.gtf.gz
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.chromosome.MT.fa.gz
    
    # 大鼠 Rattus_norvegicus
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna.toplevel.fa.gz
    wget ftp://ftp.ensembl.org/pub/release-98/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.98.gtf.gz
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna.chromosome.MT.fa.gz
    
    # 斑马鱼 Danio_rerio.GRCz11
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/danio_rerio/dna/Danio_rerio.GRCz11.dna.primary_assembly.fa.gz
    wget ftp://ftp.ensembl.org/pub/release-98/gtf/danio_rerio/Danio_rerio.GRCz11.98.gtf.gz
    wget ftp://ftp.ensembl.org/pub/release-98/fasta/danio_rerio/dna/Danio_rerio.GRCz11.dna.chromosome.MT.fa.gz
    
    # 拟南芥 Arabidopsis_thaliana
    wget ftp://ftp.ensemblgenomes.org/pub/plants/release-45/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
    wget ftp://ftp.ensemblgenomes.org/pub/plants/release-45/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.45.gtf.gz
    wget ftp://ftp.ensemblgenomes.org/pub/plants/release-45/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.chromosome.Mt.fa.gz
    

    参考文章

    更多关于生物信息数据库和版本选择的文章

    相关文章

      网友评论

        本文标题:生信流程搭建(二)Ensembl数据库下载常用参考序列与对应的g

        本文链接:https://www.haomeiwen.com/subject/ugdfrktx.html