构建转录组项目以及数据下载
文章中使用的数据集为SRP062637
1.下载数据最原始方法:去NCBI网站上搜索该数据
NCBI首页可以看到该数据集包含24的样本测序数据。
- 由于目前NCBI网站不太稳定,所以使用SRA Explorer去搜索下载数据。
2. SRA Explorer网站的使用
SRA网站- 首先在Search for栏中输入SRP062637搜索,然后点击Title左侧的小方框,从而选中所有24的样本的数据,然后再点击Add 24 to collection,点击以后在网站最上方的购物车小标识那里会显示已经将24个样本加入进去了。 使用步骤
- 点击购物车就可以进入该网站提供的下载该数据集的四种命令形式:
提供的下载形式
1.第一个就是官网提供的下载方式根据ftp方式进行下载,但是该方式下载太慢了。可以用迅雷下载,也可以在终端中利用命令:wget进行下载。不建议。
2.第二个是通过curl方式下载,也是很慢,不建议。
3.第三个是利用Aspera connect(高通量下载)下载,该方式下载速度很快。
# 下载aspera connect软件
$ wget -c http://download.asperasoft.com/download/sw/connect/3.9.5/ibm-aspera-connect-3.9.5.172984-linux-g2.12-64.tar.gz
$ tar -zxvf ibm-aspera-connect-3.9.5.172984-linux-g2.12-64.tar.gz # 解压软件包,得到一个.sh文件
$ sh ibm-aspera-connect-3.9.5.172984-linux-g2.12-64.sh # 有的电脑可能需要使用bash命令来执行.sh文件,之后会生成.aspera文件夹
$ ls /User/yanli/.aspera/connect/bin/
ascp
$ vi ~/.zshrc # 因为我的电脑上安装了oh-my-zsh这个shell编辑器所以我的文件是.zshrc,若没有安装的话输入vi ~/.bashrc,进入vi编辑器中,在编辑器最后一行输入:export PATH="/User/yanli/.aspera/connect/bin:$PATH"(添加环境变量命令),然后保存退出vi编辑器。
$ source ~/.zshrc(或.bashrc)
$ which ascp
/Users/yanli/miniconda3/bin/ascp # 说明安装成功,就可以利用SRA网站提供的ascp命令进行下载了
- 另外,由于该数据集有24个样本,如果一个个下载就太费事了,可以在终端中写一个批量下载的脚本:
$ vi download.sh # 进入vi 编辑器,然后把SRA Explorer网站提供的24个ascp下载链接粘贴到编辑器中,保存退出编辑器,生成download.sh文件。
$ sh download.sh # 如果你是在自己的电脑上运行该脚本的话直接进行批量下载;若是在服务器上运行的话,可以在每一个ascp命令行后面加上&&使得24个ascp命令行并行运行节省时间。
网友评论