参考方法步骤:徐州更GitHub
以《RNA sequencing reveals the complex regulatory network in the maize kernel》为例。
文章中转录组原始数据编号 SRP026161。
- 在NCBI的sra目录里搜索SRP026161。
- 点击右上角的send to.
- 选择file runinfo,点击create file。保存到本地,这样就创建了搜索结果的CSV文件。
选中file runinfo后点击create file
- 下载数据。
cat srcinfo.csv | cut -d , -f 10 > srclink
cut -d 后面是指定分隔符为逗号,找到第10个分隔符里的内容,输出到srclink文档。
cd sra
wget -i ../srclink
进入sra目录下载srclink的所有链接数据。(此处sra和srclink是同级目录)
- 由于测序数据太大,下载速度实在太慢,安装aspera加快速度。
#下载linux版本的aspera cli.
wget https://download.asperasoft.com/download/sw/cli/3.9.1/ibm-aspera-cli-3.9.1.1401.be67d47-linux-64-release.sh
#md5sum 查看文件的md5值,核对文件一致性。对于下载的文件,这是一个好的习惯。
md5sum ibm-aspera-cli-3.9.1.1401.be67d47-linux-64-release.sh
mv ibm-aspera-cli-3.9.1.1401.be67d47-linux-64-release.sh aspera.sh
bash aspera.sh
#添加path ,我的习惯是添加到~/.bash_profile,但是需要重启终端才能使用。根据自己的实际情况修改路径。最新版的会告诉你添加路径的代码。
vim ~/.bash_profile
export PATH=~/disk/soft/aspera/.aspera/cli/bin:$PATH
- 从NCBI上找到SRR的FTP下载地址
原始来源
ascp -T -l 200M -i -k 1 /home/chai/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912045/SRR912045.sra ./
NCBI中,SRR数据的FTP目录前面完全相同,SRR912/代表SRR912开头的所有数据目录,SRR912045/代表SRR912045数据的目录,SRR912045.sra即是最终地址。同理SRR912646的完整地址是ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912646/SRR912646.sra - aspera的使用
需要注意几点:(chaim为我的服务器用户名目录应切换为自己对应的用户名)
- 我们实验室的服务器需要登录校园网,故先用lynx登录后,用ping保持着后台一直有网络连接,不然会断网。
- 服务器端可能需要重新配置path
PATH=$PATH:/home/chaim/.aspera/connect/bin
- sraid.txt 为本目录里的一个TXT文件,存放的是所有要下载的sra的编号,格式为
/sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912538/SRR912538.sra
/sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912638/SRR912638.sra`
完成上述配置之后,运行下面命令,即可在后台持续下载了。
nohup ascp -i /home/chaim/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list sraid.txt ./ &
说明:
需要时刻注意自己的用户名,不要用我的用户名。
nohup task &
其中task 表示你要执行的任务,用此命令可以使task任务持续在服务器后台运行。远程连接可以退出而不会影响远程主机的任务。
当你退出登录时请使用logout
,非正常退出可能会导致nohup的命令异常停止。
最近测试发现,可能会造成nohup进程结束。所以使用logout靠谱。exit
退出
可能会出现各种错误 除了按照上述操作仍然出错,比如什么UDP错误SSL错误
可能的解决办法:重新开启一个终端,进去后重新配置该软件的环境变量,之后再严格按照该命令运行。 //至少我是这样解决的。
最近又自己把命令写进shell脚本,这样就不用每次自己输入好长的命令,毕竟国内环境问题,下载会经常莫名其妙断掉。目前没想到好的办法监控程序断掉后,自动重新连接。
- 使用sratool将SRA转换成fastq.
安装sratool
wget
http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar xzf sratoolkit.current-centos_linux64.tar.gz
sratool的使用
进入sratool解压的目录,更改解压后的文件明为sra
我的目录位置是
/home/chaim/disk/soft/sra/bin/fastq-dump --split-3 SRR910783.sra
批量解压缩
[shell]
for i in *sra
do
echo i
done
[/shell]
友情提示:解压缩速度特别慢,比较耗费cpu资源。
网友评论