上次写过一篇批量下载基因组的文章,使用的方法是从NCBI一个网站上搜索,下载文件里提取ftp网址,然后再用wget批量下载的。(传送门:【生信】利用shell批量下载NCBI基因组)
这次我介绍另一种方法EDirect。本文将介绍其安装为主,使用方面因为本人还未怎么应用,不可过多介绍,但是提供几个我今天浏览过的网址,也方便自己以后查询学习。
EDirect的安装
参考:https://www.ncbi.nlm.nih.gov/books/NBK179288/
EDirect的安装我是参考官网进行的,下载了install-edirect.sh后,运行:
source ./install-edirect.sh
sh setup.sh
顺利的话这么一下就能安装成功。但我并没有顺利,运行时根据报错信息,依次还安装了几个perl模块:JSON::PP、Xml::Simple、LWP::Protocol::https,然后我的EDirect就使用上了。由于我不知道我们服务器管理员权限的密码,这部分的模块是我师兄帮我装上的,感谢师兄!
- 这里搬运或提供几个我期间参考过的教程:
1、Download all assemblies in a bioproject
这是下载assembly sequences的命令
esearch -db bioproject -query 474907 \
| elink -target assembly \
| esummary \
| grep "FtpPath_RefSeq" \
| sed -r 's|.+>(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/.+/)(GCF_.+)<.+|\1\2/\2_genomic.fna.gz|' \
> list_fna.txt
wget -i list_fna.txt
这是出现形如“ Can't locate JSON/PP.pm ...........巴拉巴拉......”的报错,需要装上JSON::PP的perl模块时的方法:
JSON::PP: sudo perl -MCPAN -e shell
install JSON::PP.
perl -e 'use JSON::PP' #测试是否已装好
EDirect的使用
由于我还没怎么用,这里仅提供我浏览到的一些教程:
中文参考链接
官方的edirect documentation
最后的碎碎念
今儿是母亲节,折腾了大半天,总算装上+批量下再到我想下载的基因组了,感觉下载基因组完全是整个试验的第0步,却感到这么困难,有点沮丧,但这就是摸索的现状吧。超感谢师兄今天帮我的。今后也还要继续加油,争取以后的母亲节可以free of job.
网友评论