一觉醒来,数据下载完了,从NCBI下载的数据是一个高度压缩的sra文件,我们需要先解压成fastq文件。进一步的质控可以看看测序的质量。到这里你可能需要补充一些关于测序格式的知识了。分享徐洲更的b站视频课:https://www.bilibili.com/video/BV1Rt411G7Ea
格式转换
不知道为啥,用fastq-dump,--split 3这个option没法用,所以我用了fasterq-dump,听说这个速度更快。
mkdir fastq
fasterq-dump -O fastq -3 -p SRR35899*/SRR35899*.sra #星号可以表示所有带这个前缀的文件,当然也可以用循环语句来写
我们来看看这里的一些参数:
-O 输出文件夹
-3 双端测序分别保存
-p 看进度
这一步结束之后我们在fastq文件夹就可以看到一堆SRR****.sra_1.fastq和SRR****.sra_2.fastq文件了。
质控
接下来我们用fastqc进行质控
fastqc -o SRR35899*.sra_*.fastq #-o参数表示输出目录
完成之后我们在输出目录中找到一堆html文件,拷贝到自己的电脑上,用网页打开看。关于测序结果的分析,参考https://www.jianshu.com/p/14fd4de54402
当然你会发现要是数据多了处理起来就很麻烦,有一个叫multiqc的工具,以后用到了回来跟新下,这里先用徐洲更的教程代替下
https://www.jianshu.com/p/303de2c95239
网友评论