NIH-HPC
NIH-HPC 为用户维护了数以千计的各种科学程序,软件包和数据库。
SRA-Toolkit
- 简介
sra是公共数据库,如NCBI的一种基本数据格式,而SRA-Toolkit 主要用于数据下载和格式转换,能将sra格式的文件转换为 .fstaq.gz,sam,abi,sff等常用格式;NCBI上的官方文档推荐用户使用SRA-Toolkit( prefetch)进行 SRA data 下载。
- 常用命令
fastq-dump: Convert SRA data into fastq format
prefetch: Allows command-line downloading of SRA, dbGaP, and ADSP data
sam-dump: Convert SRA data to sam format
sra-pileup: Generate pileup statistics on aligned SRA data
vdb-config: Display and modify VDB configuration information
vdb-decrypt: Decrypt non-SRA dbGaP data ("phenotype data")
abi-dump: Convert SRA data into ABI format (csfasta / qual)
illumina-dump: Convert SRA data into Illumina native formats (qseq, etc.)
sff-dump: Convert SRA data to sff format
sra-stat: Generate statistics about SRA data (quality distribution, etc.)
vdb-dump: Output the native VDB format of SRA data.
vdb-encrypt: Encrypt non-SRA dbGaP data ("phenotype data")
vdb-validate: Validate the integrity of downloaded SRA data
Tips: NCBI Large Data Download Best Practices
linux下载和安装
- 下载
wget \
-O " sratoolkit.tar.gz" \
"ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
- 解压
tar \
-xzf sratoolkit.tar.gz
- 如果不将 Toolkit的功能模块 (fastq-dump, sam-dump, etc.) 放到PATH环境变量,调用起来可能会很麻烦,最好还是配置一下。
# 移动到指定文件夹
mv sratoolkit.2.9.2-centos_linux64 ~/local/app/
# 进入本地程序安装路径
cd ~/local/app/
# 去掉版本号
mv sratoolkit.2.9.2-centos_linux64 sratoolkit
- 临时环境变量(每次开机都需配置一次)
export PATH=$PATH:...(yourfile)/local/app/sratoolkit/bin
- PATH环境变量(设置一次后,开机自动激活)
#用vi/vim编辑器修改bashrc文件
vim ~/.bashrc
#插入路径
i
export PATH=$PATH:/home/urname/local/app/sratoolkit/bin
#退出vi编辑器并保存文件
Esc | :wq
# 重启终端使设置生效,或
source ~/.bashrc
下载SRA数据
- 通过prefetch 下载SRR390728数据
prefetch -X 200KB SRR390728
- 通过fastq-dump 下载fastq 数据
fastq-dump -X 5 -Z SRR390728
- 通过简单的bash
vim mybash.sh
#!/bin/bash
cd /data/$USER/mydir
module load sratoolkit
fastq-dump -X 5 -Z SRR390728
# 运行脚本,或
sh mybash.sh
# 使脚本具有执行权限
chmod +x ./ mybash.sh
#执行脚本
./ mybash.sh
Tips:
-
time 命令打印命令运行所需时间
-
nohup 命令可以使命令永久的执行下去,退出终端或断网后也不会影响程序的运行,会自动续上;结果保存在 nohup.out 里面
-
& 命令表示后台运行
-
把两个结合起来nohup function & 能使命令永久的在后台执行。
网友评论