获取方法一:
从NCBI获取需要的SAR序列号
screen -S GSE136447#创建后台程序(可以写shell脚本,存在问题“/r” 可以利用空格;解决换行问题,可以使用nohup XXX.sh &)
cat /data/shift/GSE136447/GSE136447.txt|while read i#存放的为SAR序列号
do
/data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 99999999999999 -O `pwd` $i && echo "**${i}.sra done**"
done
*****注意要根据MD5值判断文件是否完整,否则无法进入下一步操作******
处理SAR文件
1.将文件转为fastq格式
(1)下载fastq-dump.2.8.2
curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-ubuntu64.tar.gz#从网页下载fastq-dump
ll
tar xvf sratoolkit.2.8.2-ubuntu64.tar.gz#解压
cd sratoolkit.2.8.2-ubuntu64/bin#进入文件
ll#确定fastq-dump.2.8.2名字,方便后续使用
pwd#查询当前路径
echo export PATH=$PATH:/root/sratoolkit.2.8.2-ubuntu64/bin >> ~/.bashrc#将安装路径加入环境变量中
source ~/.bashrc
cd ../#回到根目录中
fastq-dump.2.8.2 -h#可以使用
(2)fastq-dump使用,数据转换
fastq-dump.2.8.2 -X 1 --split-spot SRR2240617.sra#判断测序数据类型
Read 1 spots for SRR2240617.sra
Written 1 spots for SRR2240617.sra
fastq-dump.2.8.2 -X 1 --split-spot -Z SRR2240617.sra | wc -l#返回值:4:单端SE;8:双端PE
#single-end 单端测序
fastq-dump.2.8.2 SRR2240617.sra # 结果生成SRR5489805.fastq
fastq-dump.2.8.2 --fasta SRR2240617.sra # 结果生成SRR5489805.fastq
#pair-end 双端测序
fastq-dump.2.8.2 --split-3 SRR2240617.sra # 结果生成 SRR2240617_1.fastq,SRR2240617_2.fastq
2.fastqc质控
(1)fastqc下载:
进入下面网址,选择对应的版本下载
wget --no-check-certificate https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip #不能直接下采用方法
nohup wget --no-check-certificate https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip &#挂后台,这个巨慢,如果执行中间停止了或者出错了,可以继续执行第二次继续,但是结束后要删除之前的下载记录
unzip fastqc_v0.11.9.zip#解压
cd FastQC/
ll
chmod 700 fastqc#更改权限(u+x)
pwd#确定fastqc所在位置,方便下次继续执行
cd ../
mkdir result#建立新文件夹,方便结果输出
cd result
pwd#确定result所在位置,方便下次继续执行
cd ../
ll
#出现图形无法执行问题,利用一下两句
yum install fontconfig
fc-cache --force
nohup /root/FastQC/fastqc -o /root/result -t 6 /root/SRR2240617_1.fastq /root/SRR2240617_2.fastq &
#会输出四个文件,将输出的html文件传到电脑上直接看就行了
cat nohup.out
(2)奇怪的要求,使用fasta
awk 命令转换
awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR2240617_2.fastq > SRR2240617_2.fasta
awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR2240617_1.fastq > SRR2240617_1.fasta
网友评论