最近需要下载多个数据库,随着云产品的兴起,越来越多数据库提供了不同云厂商桶(bucket)的下载地址,要想探索在也可以去aws s3 , microsoft的azure云存储官网看看。这篇记录怎么用aws的命令行工具下载公开数据集
首先重要事情:公开数据集的下载并不需要用到aws的key还有region的信息,也不需要用户信息配置文件,所以不要傻乎乎去申请什么aws的账号。
1、gnomad的公开数据集
gnomad的云存储数据集2、安装aws s3的工具
- anaconda无痛安装
#conda安装,为防止软件版本冲突单独开个软件
conda create -n aws --y
conda install -c conda-forge awscli --y
3、查看数据集
- 下面的操作一定要添加
--no-sign-request
,否则需要aws账号的登录才可以查看
aws s3 ls --no-sign-request s3://1000genomes/
PRE 1000G_2504_high_coverage/
PRE alignment_indices/
PRE changelog_details/
PRE complete_genomics_indices/
PRE data/
PRE hgsv_sv_discovery/
PRE phase1/
PRE phase3/
PRE pilot_data/
PRE release/
PRE sequence_indices/
PRE technical/
- 下载数据集
#下载数据集,跟一般shell命令不一样
aws s3 --no-sign-request cp s3://gnomad-public-us-east-1/release/3.1/vcf/genomes/gnomad.genomes.v3.1.sites.chrY.vcf.bgz dest_dir
4、其他&注意事项
- 目录后面一定要加
/
,否则无法列出桶里面的内容 - 传输的目的地不能是另外一个桶只能是本地的路径,否则会出现
[Errno 95] Operation not supported
这样的报错 - 关于为什么要使用桶而不是网页或者其他下载器下载,是因为桶的传输速度非常快,而且方便不需要收集url即可,就像把电脑中的数据拷到另外一个盘的感觉。
网友评论