美文网首页生物信息学与算法
ncbi-genome-download:从NCBI上批量下载序

ncbi-genome-download:从NCBI上批量下载序

作者: 大坏蛋HYB | 来源:发表于2020-03-04 12:00 被阅读0次

    ncbi-genome-download是一个可以从NCBI上批量下载序列的软件,支持下载细菌、古细菌、真菌、植物、原生动物、病毒等等的序列,同时支持多种格式,如fasta/gbk/gff等。
    安装方法,使用conda
    conda install -c bioconda ncbi-genome-download

    假如我要下载大肠杆菌的全部完成图的fasta文件,序列保存在ecoli文件夹中,则命令如下:
    ncbi-genome-download bacteria -F fasta -l complete -g "Escherichia coli" -o /home/hyb/ecoli/

    可以输入
    ncbi-genome-download -h
    查看软件所有参数(只列出我常用的,更多可以安装后运行查看):

    positional arguments:
      group             可以下载的NCBI分类组,可以多个,用逗号隔开
                           如: "bacteria,viral" ,每次先指定,以防忘记。可从下面的选择
                            ['all', 'archaea', 'bacteria', 'fungi',
                            'invertebrate', 'plant', 'protozoa',
                            'vertebrate_mammalian', 'vertebrate_other', 'viral']
    
    optional arguments:
      -s {refseq,genbank}, --section {refseq,genbank}
                            NCBI section to download (default: refseq)
      -F FILE_FORMAT, --format 下载的文件格式,默认.gbk
                           下载多个格式可以用逗号分隔,如: "fasta,assembly-report". 
                            从下面的文件格式选择:
                            ['genbank', 'fasta', 'rm', 'features', 'gff',
                            'protein-fasta', 'genpept', 'wgs', 'cds-fasta', 'rna-
                            fna', 'rna-fasta', 'assembly-report', 'assembly-
                            stats', 'all']
      -l ASSEMBLY_LEVEL, --assembly-level 组装程度
                            多个可选,逗号分隔 : "complete,chromosome". 可选: ['all', 
                            'complete', 'chromosome', 'scaffold',
                            'contig']
      -g GENUS, --genus GENUS
                            Only download sequences of the provided genus. A
                            comma-seperated list of genera is also possible. For
                            example: "Streptomyces coelicolor,Escherichia coli".
                            (default: [])
    
      -o OUTPUT, --output-folder 输出文件夹                     
      -p N, --parallel N    一次下载序列的个数 (default: 1)
      -r N, --retries N     失败时重连次数 (default: 0)                       
      -m METADATA_TABLE, --metadata-table   保存源数据到一个tab文件中,需自己建并指定 
                          
    

    参考
    源github地址:https://github.com/kblin/ncbi-genome-download

    相关文章

      网友评论

        本文标题:ncbi-genome-download:从NCBI上批量下载序

        本文链接:https://www.haomeiwen.com/subject/grovkhtx.html