NCBI-SRA数据的下载方法

作者: 大号在这里 | 来源:发表于2020-08-14 08:31 被阅读0次

    SRA 数据库: 为Sequence Read Archive 的缩写。主要存储高通量测序的原始数据,来自四个测序平台,分别为:Roche_LS454,Illumina,ABI_SOLID和HELICOS。从事生物信息分析的老师和同学一般都会接触SRA数据,下载SRA数据的方法也有很多,这里来简单总结一下。

    一、SRA Tookit下载

    SRA Tookit 是NCBI 提供的下载软件,我们需要下载安装,下载地址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

    选择需要的SRA Tookit 版本进行下载,下载后直接解压到某个指定位置即可。然后搜索SRA数据,例如,我们要下载SRP108428(阅读文献可以找到公开数据的project号)下的所有数据,打开NCBI网址:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP108428(此处为project号),点击"Accession List"键,下载得到SRR List 储存在sra.txt文件中。


    sra.txt

    使用SRA Tookit 的prefetch进行下载,prefetch放在sratoolkit文件夹下的bin目录。

    sratoolkit-centos_linux64/bin/prefetch --option-file sra.txt
    

    具体教程:

    二、迅雷下载

    例如,我们要下载SRP108428(阅读文献可以找到公开数据的project号)下的所有数据,打开NCBI网址:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP108428(此处为project号),点击"Accession List"键,下载得到SRR List 储存在sra.txt文件中。那么我们就可以通过下载地址规律生成所有样品的ftp的下载地址:
    ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR563/SRR5631562/SRR5631562.sra
    最后,将链接粘贴到迅雷下载即可, 是不是很方便?

    三、wget下载

    1. 从NCBI下载数据本来是一件很简单的事情,有时候会遇到下面情况:
      (1)paper里没有提供SRA数据号、也没有提供路径;
      (2)不知道文件在ftp的地址,不能直接用wget下载
    2. 所以通过在NCBI官网,直接在SRA搜索栏里:
      2.1 输入paper的title关键词NIFTY BGI

    2.2 搜索结果


    点击send to

    image

    最后得到SraRunInfo.csv文件,文件内容是各个samp sequence的列表信息,包括FTP上的下载地址:

    2.3 最后在linux中通过wget下载
    参考wget使用说明

    相关文章

      网友评论

        本文标题:NCBI-SRA数据的下载方法

        本文链接:https://www.haomeiwen.com/subject/sjfydktx.html