美文网首页
使用SRA Toolkit下载NCBI-SRA原始数据教程

使用SRA Toolkit下载NCBI-SRA原始数据教程

作者: 惊鸿影 | 来源:发表于2021-09-11 08:37 被阅读0次

    SRAtoolkit是NCBI开发的一个用于SRA文件处理的软件包,包含许多有用的工具。

    一. 下载安装

    1. 可以在NCBI上下载,网址为:

    https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
    我们的服务器使用的是centos操作系统,可以使用wget命令直接下载到服务器端,命令如下

    wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.1/sratoolkit.2.11.1-centos_linux64.tar.gz
    

    2. 解压安装

    下载之后使用tar命令解压后就可以直接使用

    tar zvxf sratoolkit.2.11.1-centos_linux64.tar.gz
    

    3. 测试安装是否成功

    #输入软件所在位置并输入 -h
    ~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h
    

    若显示如下图则可以使用了


    image.png

    也可以用conda快捷安装

    4. 将sratoolkit 添加到环境变量

    #进入环境变量所在的目录后输入
    echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH'  >> ~/.bashrc
    source ~/.bashrc
    #这里面的~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin表示是sratoolkit 所在的目录
    

    5. 再次测试sratoolkit 的安装

    将sratoolkit路径加入环境变量之后就可以直接使用sratoolkit了,不需要每次使用时再输入安装路径:
    输入

    fastq-dump -h
    

    屏幕显示为


    image.png

    则表示可以使用了。

    6. 更改下载路径

    若不修改,则下载到~/ncbi/public/sra 目录下, 在服务器上通常需要下载到指定目录, 所以安装好以后需要更改默认下载目录.
    找到并进入sratoolkit所在目中的bin文件夹:输入 ./vdb-config -i ,会出现如下的界面:


    image.png

    按上下键移动,到Change,回车后选择对应的目录『该目录必须为空』,移动到Save回车后,移动到Exit回车

    二、SRA数据的下载

    如果下载单个样品的SRA,可以在NCBI上先找到SRA 的ID,如在NCBI上找到的Oreocharis longifolia ID为 SRR12339613,可以在服务器上输入

    nohup fastq-dump SRR12339613 &
    

    即可进行下载SRA文件.
    或直接将文件下载并转成双端的fastq的gz压缩文件。

    nohup fastq-dump --split-files SRR12339613 -gzip & 
    # --split-files -gzip 会将SRA文件下载的同时分割成正反两个方向测序的文件并进行压缩
    

    下载之后会获得下图这样的文件,就是转录组双向测序的文件.


    image.png

    若需要批量下载,可先获得ID list, 如若需要某一个项目中的所有SRA数据,可以直接在NCBI中搜索该project的ID,获得Accession List。


    image.png

    然后输入

    prefetch --option-file SRR_Acc_List.txt 
    

    进行批量下载
    sratoolkit常用命令

    fastq-dump SRR12339613  #将sra转换成fastq
    
    fastq-dump --fasta 50 SRR12339613  #sra转换成fasta,50为每行50个碱基
    
    fastq-dump --split-files SRR12339613  #将双端测序文件分开
    
    fastq-dump --split-3 filename其中--split-3参数代表着如果是单端测序就生成一个  、.fastq文件,如果是双端测序就生成_1.fastq 和*_2.fastq 文件。
    

    若下载下来的为sra文件需要批量转化为fastq文件,可以使用简单的for循环脚本:

    for i in *sra
    do
      echo $i
      fastq-dump --split-3 $i
    done
    

    相关文章

      网友评论

          本文标题:使用SRA Toolkit下载NCBI-SRA原始数据教程

          本文链接:https://www.haomeiwen.com/subject/ztcnwltx.html