一、背景知识
1、sra数据
sra数据是SRA数据库用于储存二代测序数据的原始数据的一种压缩格式,这种数据格式不能直接进行处理,需要转换成fastq才能进行质控以及去adapt等处理——相当于解压缩!!!
2、fastq文件(简称fq文件)
高通量测序得到的原始图像数据文件,经过碱基识别(base calling)分析转化为原始测序序列(sequenced reads),称之为raw data或raw reads,结果以fastq(简称fq)文件格式存储
3、fastq-dump
需要的命令:fastq-dump
命令的来源:sra-tools
fastq-dump的参数
- --gzip 将转换出的fastq文件以gz格式输出,可以节省空间
- --split-3 把pair-end测序分成两个文件输出
- -X 拆分出指定的reads数目,默认拆分所有reads,一个read就是fastq的四行数据(老师为了上课测试,设置25000条reads,真实数据不需要加这个参数!!!)
- -O 输出文件夹名
二、转换过程
#定义存放输出数据的文件夹,需要先创建这个文件夹‘fastq’
mkdir fastq
fqdir=/trainee2/Mar7/rna/project/fastq
#转换单个文件
fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510
#批量转换,将样本名写成文件——sample.ID,echo是打印命令,while循环的意义是生成脚本
cat sample.ID | while read id
do
echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}
done >sra2fq.sh
# 提交后台运行命令,脚本文件后缀为.sh,日志文件后缀为.log,运行脚本的命令为sh
nohup sh sra2fq.sh>sra2fq.log &
此处不是报错,只是系统反馈
输出的文件
输入一个文件,输出两个gz压缩文件(因为是双端测序,1和2分别表示第一段测序结果和第二段测序结果)
批量转换,注意done后面有空格!!!
#查看输出的fastq的gz压缩文件,用zless命令
zless -S SRR1039510_1.fastq.gz
fastq文件内容
网友评论