美文网首页
【生信知识】---全网最佳方案下载SRA数据库文件!

【生信知识】---全网最佳方案下载SRA数据库文件!

作者: 卡布达b1 | 来源:发表于2020-05-06 14:33 被阅读0次

    前言:众所周知,NCBI对我朝的局域网不甚友好,对于国内的生信玩家来说,想要下载SRA数据库的.sra或者.fastq经常遇到网速问题,慢到你怀疑人生有木有!因此,我在这里摸索了一个目前看来最高效的方法,那就是。。。ascp+ENA数据库!

    详解:
    1.首先安装ascp
    这个神器就不多介绍了,没有安装的同学先把ascp安装到自己的服务器上吧,推荐安装教程👇

    www.bioinfo-scrounger.com/archives/171/

    2.ENA数据库
    ENA数据库,全称European Nucleotide Archive,是EBI提供用于存储核酸序列信息的综合数据库,相当于NCBI的SRA,而且两个数据库数据是交换共享的。
    网址👇

    www.ebi.ac.uk/ena

    ENA数据库主页
    3.下载示例
    以SRR11637845为例,测序物种为Acinetobacter baumannii,然后在ENA数据库的右上角搜索栏中进行检索,如图:
    检索SRR11637845
    点击research按钮,进入检索结果界面,可以看到检索到两个结果,选择run结果,如图:
    SRR11637845的检索结果
    然后就进入了该run的详情界面,可以看到测序平台、研究项目编号、双端单端等信息,红框中就是测序reads的下载链接,如图:
    SRR11637845的原始reads下载

    右键单击,复制链接地址,然后粘贴出来观察一下:

    ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_1.fastq.gz
    ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_2.fastq.gz

    4.使用ascp进行下载

    ascp -QT \#-Q用于自适应流量控制,磁盘限制所需;-T是取消加密,否则有时候数据下载不了
    -l 300m \#-l设置最大传输速度,一般200m到500m,若不设置,反而速度会较低,可能有个较低的默认值
    -P33001 \#-P用于SSH身份验证的TCP端口,一般是33001
    -i /home/xxx/.aspera/connect/etc/asperaweb_id_dsa.openssh \#-i是指定ascp的密钥位置,根据自己的安装目录设定
    era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR116/045/SRR11637845/SRR11637845_1.fastq.gz . #era-fasp是EBI在ascp服务器上的注册用户名,然后@fasp.sra.ebi.ac.uk表示ENA数据库的域名,.gz后面的.是指定下载到当前目录,否则ascp会报错
    

    这个下载速度,没谁了


    28.6Mb/s

    总共用时不到1分钟!


    43 seconds

    相关文章

      网友评论

          本文标题:【生信知识】---全网最佳方案下载SRA数据库文件!

          本文链接:https://www.haomeiwen.com/subject/qxfwghtx.html