生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

作者: 小周的万用胶囊 | 来源:发表于2023-03-21 12:59 被阅读0次

最近需要下载多个数据库，随着云产品的兴起，越来越多数据库提供了不同云厂商桶（bucket）的下载地址，要想探索在也可以去aws s3 , microsoft的azure云存储官网看看。这篇记录怎么用aws的命令行工具下载公开数据集

首先重要事情：公开数据集的下载并不需要用到aws的key还有region的信息，也不需要用户信息配置文件，所以不要傻乎乎去申请什么aws的账号。

1、gnomad的公开数据集

gnomad的云存储数据集

2、安装aws s3的工具

anaconda无痛安装

#conda安装，为防止软件版本冲突单独开个软件
conda create -n aws --y
conda install -c conda-forge awscli --y

3、查看数据集

下面的操作一定要添加--no-sign-request ，否则需要aws账号的登录才可以查看

aws s3 ls --no-sign-request s3://1000genomes/

                           PRE 1000G_2504_high_coverage/
                           PRE alignment_indices/
                           PRE changelog_details/
                           PRE complete_genomics_indices/
                           PRE data/
                           PRE hgsv_sv_discovery/
                           PRE phase1/
                           PRE phase3/
                           PRE pilot_data/
                           PRE release/
                           PRE sequence_indices/
                           PRE technical/

下载数据集

#下载数据集，跟一般shell命令不一样
 aws s3 --no-sign-request cp s3://gnomad-public-us-east-1/release/3.1/vcf/genomes/gnomad.genomes.v3.1.sites.chrY.vcf.bgz dest_dir

4、其他&注意事项

目录后面一定要加/，否则无法列出桶里面的内容
传输的目的地不能是另外一个桶只能是本地的路径，否则会出现[Errno 95] Operation not supported这样的报错
关于为什么要使用桶而不是网页或者其他下载器下载，是因为桶的传输速度非常快，而且方便不需要收集url即可，就像把电脑中的数据拷到另外一个盘的感觉。

gnomad

网友评论

生信log

本文标题：生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

本文链接：https://www.haomeiwen.com/subject/vkqdrdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

1、gnomad的公开数据集

2、安装aws s3的工具

3、查看数据集

4、其他&注意事项

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信log