美文网首页
公共数据下载和格式转换SRA-Toolkit

公共数据下载和格式转换SRA-Toolkit

作者: 吴十三和小可爱的札记 | 来源:发表于2019-10-27 14:34 被阅读0次

NIH-HPC

NIH-HPC 为用户维护了数以千计的各种科学程序,软件包和数据库。

SRA-Toolkit

  1. 简介

sra是公共数据库,如NCBI的一种基本数据格式,而SRA-Toolkit 主要用于数据下载和格式转换,能将sra格式的文件转换为 .fstaq.gz,sam,abi,sff等常用格式;NCBI上的官方文档推荐用户使用SRA-Toolkit( prefetch)进行 SRA data 下载。

  1. 常用命令

fastq-dump: Convert SRA data into fastq format

prefetch: Allows command-line downloading of SRA, dbGaP, and ADSP data

sam-dump: Convert SRA data to sam format

sra-pileup: Generate pileup statistics on aligned SRA data

vdb-config: Display and modify VDB configuration information

vdb-decrypt: Decrypt non-SRA dbGaP data ("phenotype data")

abi-dump: Convert SRA data into ABI format (csfasta / qual)

illumina-dump: Convert SRA data into Illumina native formats (qseq, etc.)

sff-dump: Convert SRA data to sff format

sra-stat: Generate statistics about SRA data (quality distribution, etc.)

vdb-dump: Output the native VDB format of SRA data.

vdb-encrypt: Encrypt non-SRA dbGaP data ("phenotype data")

vdb-validate: Validate the integrity of downloaded SRA data

Tips: NCBI Large Data Download Best Practices

linux下载和安装

  1. 下载
wget \
-O " sratoolkit.tar.gz" \ 
"ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz" 
  1. 解压
tar \
-xzf sratoolkit.tar.gz
  1. 如果不将 Toolkit的功能模块 (fastq-dump, sam-dump, etc.) 放到PATH环境变量,调用起来可能会很麻烦,最好还是配置一下。
# 移动到指定文件夹
mv sratoolkit.2.9.2-centos_linux64 ~/local/app/  
   ​
# 进入本地程序安装路径
cd ~/local/app/  
   ​
# 去掉版本号
mv sratoolkit.2.9.2-centos_linux64 sratoolkit
  1. 临时环境变量(每次开机都需配置一次)
export PATH=$PATH:...(yourfile)/local/app/sratoolkit/bin
  1. PATH环境变量(设置一次后,开机自动激活)
#用vi/vim编辑器修改bashrc文件
vim ~/.bashrc
​
#插入路径
i 
export PATH=$PATH:/home/urname/local/app/sratoolkit/bin
​
#退出vi编辑器并保存文件
Esc | :wq 
​
# 重启终端使设置生效,或
source ~/.bashrc

下载SRA数据

  1. 通过prefetch 下载SRR390728数据
prefetch -X 200KB SRR390728
  1. 通过fastq-dump 下载fastq 数据
fastq-dump -X 5 -Z SRR390728
  1. 通过简单的bash
vim mybash.sh
​
#!/bin/bash 
cd /data/$USER/mydir
module load sratoolkit
fastq-dump -X 5 -Z SRR390728
​
# 运行脚本,或
sh mybash.sh
​
# 使脚本具有执行权限
chmod +x ./ mybash.sh
#执行脚本
./ mybash.sh 

Tips:

  • time 命令打印命令运行所需时间

  • nohup 命令可以使命令永久的执行下去,退出终端或断网后也不会影响程序的运行,会自动续上;结果保存在 nohup.out 里面

  • & 命令表示后台运行

  • 把两个结合起来nohup function & 能使命令永久的在后台执行。

相关文章

网友评论

      本文标题:公共数据下载和格式转换SRA-Toolkit

      本文链接:https://www.haomeiwen.com/subject/amnpvctx.html