欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
前面我们介绍了如何进行生物数据的检索,当得到了数据的下载地址之后,接下来就可以开始下载了,那么下载数据的方式有很多种,最常用的就是使用浏览器进行下载,不过浏览器使用的是http(s)协议,下载速度慢,而且如果突然中断,断点续传也比较麻烦,这次我们介绍更好用的ftp协议下载方式。
FTP下载
FTP 是File Transfer Protocol(文件传输协议)的英文简称,相比于http协议,更加稳定,传输速度也更快。
很多网站提供ftp协议的数据下载。
#例如ncbi的ftp地址为:
ftp://ftp.ncbi.nlm.nih.gov/
#embl的ftp地址为:
ftp://ftp.ensembl.org/pub/
访问ftp服务器需要四个元素。
ftp的地址,
用户名和密码,可以匿名访问,Anonymous,也就是数据是公开的,不需要要填写。
端口号,ftp默认端口号是21,一般也不用填写;
连接工具,有很多工具,这里面我们使用filezilla作为演示。
其实ftp的地址是可以直接通过浏览器或者资源管理器进行访问的。通过浏览器访问非常不方便,不能直接下载整个文件夹,而且不能断点续传。
通过windows系统的资源管理器,也可以访问,那么就是这种文件夹的形式,这个看起来比较工整,可以直接拖拽文件夹,但是访问速度比较忙。
所以,还是强烈推荐ftp链接工具进行访问。
Filezilla下载
filezilla的下载和安装比较容易,直接搜索,然后下载安装即可。
#Filezilla官网:
https://filezilla-project.org/
实除了还有很多ftp链接工具,比如winscp,xftp,mobaxterm等,使用方法都类似。这里我们将利用Filezilla从ncbi下载人全基因组参考序列,和对应的gff文件。
一、打开Filezilla,添加ncbi ftp地址;
ftp://ftp.ncbi.nlm.nih.gov ,ftp默认端口号为21,可以不填写,ncbi默认可以采用匿名用户访问,什么都不用填。
二、在ncbi ftp中寻找要下载的数据;
直接双击genomes目录,这里面包含了很多内容,如果想知道具体的目录内容,可以查看README文件。然后进入refseq目录,人属于脊椎动物的哺乳动物,在vertebrate_mammalian目录下,然后是Homo_sapiens目录中,表示智人。NCBI比较讨厌的是,这些目录结构经常换,过几天你按照这个目录结构也许就找不到了。
ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/
其实人基因组直接在genomes目录下就有一个H_sapiens目录,也可以直接从这里下载。
三、直接拖拽到本地即可。
注意人染色体有多个版本,确定是自己需要的版本,其他基因组下载方法类似。
---------- END ----------
网友评论