SRA数据库
SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括454,Illumina,SOLiD,IonTorrent,Helicos 等,SRA数据可以分为Studies,Experiments,Samples,Runs四类。SRA数据库中用不同的前缀加以区分四类数据: ERP或SRP表示Studies数据,SRS 表示 Samples数据,SRX 表示 Experiments数据,SRR 表示 Runs数据。下面以SRR数据为例,展示如何用Aspera软件进行快速下载数据。
Linux下安装Aspere
使用wget命令,输入以下网址下载Aspera软件包:
wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
解压缩:
tar -zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
安装:
Aspera安装
sh aspera-connect-3.6.2.117442-linux-64.sh
#安装只能在普通用户下进行
查看是否安装成功:
~/.aspera/connect/bin/ascp -h
下载SRR数据
获取下载地址:
根据所需数据的accession no.,浏览器进入NCBI的FTP服务器,找到所需的数据 。这里以SRR6208854为例:
NCBI的FTP服务器中获取下载地址
复制图中SRR6208854.sra的链接地址:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
将FTP地址改为:(只有黑体加粗部分不同)
anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra
运行Aspera:
运行Aspera下载文件
~/.aspera/connect/bin/ascp -T -i /home/hqw/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftpprivate.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR62088 54/SRR6208854.sra ./
结果如下:
有时因为网络等问题会导致下载失败(如图所示),待网络情况恢复良好重新尝试即刻。
参数说明:
-T : 不进行加密
-i: string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥
-l: string 设置最大传输速度
-k 1: 支持断点续传
--host=string : ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为 fasp.sra.ebi.ac.uk
网友评论