美文网首页生信log
生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

作者: 小周的万用胶囊 | 来源:发表于2023-03-21 12:59 被阅读0次

    最近需要下载多个数据库,随着云产品的兴起,越来越多数据库提供了不同云厂商桶(bucket)的下载地址,要想探索在也可以去aws s3 , microsoft的azure云存储官网看看。这篇记录怎么用aws的命令行工具下载公开数据集

    首先重要事情:公开数据集的下载并不需要用到aws的key还有region的信息,也不需要用户信息配置文件,所以不要傻乎乎去申请什么aws的账号。

    1、gnomad的公开数据集

    gnomad的云存储数据集

    2、安装aws s3的工具

    • anaconda无痛安装
    #conda安装,为防止软件版本冲突单独开个软件
    conda create -n aws --y
    conda install -c conda-forge awscli --y
    
    

    3、查看数据集

    • 下面的操作一定要添加--no-sign-request ,否则需要aws账号的登录才可以查看
    aws s3 ls --no-sign-request s3://1000genomes/
    
                               PRE 1000G_2504_high_coverage/
                               PRE alignment_indices/
                               PRE changelog_details/
                               PRE complete_genomics_indices/
                               PRE data/
                               PRE hgsv_sv_discovery/
                               PRE phase1/
                               PRE phase3/
                               PRE pilot_data/
                               PRE release/
                               PRE sequence_indices/
                               PRE technical/
    
    • 下载数据集
    #下载数据集,跟一般shell命令不一样
     aws s3 --no-sign-request cp s3://gnomad-public-us-east-1/release/3.1/vcf/genomes/gnomad.genomes.v3.1.sites.chrY.vcf.bgz dest_dir
    

    4、其他&注意事项

    • 目录后面一定要加/,否则无法列出桶里面的内容
    • 传输的目的地不能是另外一个桶只能是本地的路径,否则会出现[Errno 95] Operation not supported这样的报错
    • 关于为什么要使用桶而不是网页或者其他下载器下载,是因为桶的传输速度非常快,而且方便不需要收集url即可,就像把电脑中的数据拷到另外一个盘的感觉。

    gnomad

    相关文章

      网友评论

        本文标题:生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

        本文链接:https://www.haomeiwen.com/subject/vkqdrdtx.html