有些时候,我们需要从genebank中下载别人原始的测序数据来学习。
最开始的时候,我只是从NCBI上面之间点击下载fastq文件,用浏览器自带的下载工具下载,但是有些时候,你会发现并没有fastq文件可以下载,取而代之的是SRA。那么什么是SRA呢?
Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. The SRA stores raw sequencing data and alignment information from high-throughput sequencing platforms, including Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD System®, Helicos Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®.
大家可以具体看NCBI上的介绍:
https://www.ncbi.nlm.nih.gov/sra
SRA数据有四类
Studies (SRP)
Experiments (SRX)
Runs (SRR)
Samples (SRS)
一般测序仪下来的原始数据就是Run
所以我们一般可以看到很多文章后面会写
The SRA accession numbers are SRR*******
然后我们去下载
我们在NCBI上面SRA搜索中输入 SRR****
可以出来这个原始数据的例子
然后你点击去,发现下载要使用一个工具 sratoolkit
we need SRA Toolkit那么我就来安装一下
点击之后选择你电脑的版本
我这里是mac os
然后我创建了一个文件夹, 使用wget 下载
下载sratoolkit.png使用prefetch 下载
使用prefetch下载.png过一会儿就下载好了
下载成功.png
文件在路径在
在用户路径下ncbi文件夹里面
下载完了之后,发现其实这个软件还是有很多功能的
要去查看Document
我这里来试一试转换为 fastq文件,文件大的话还是有点耗时间的。
要等一会儿
OK 了
对应的fastq
其实还有很多的实用工具可以使用,要看懂帮助手册。
补充 双端测序分成 2个reads
分成2个reads.png
网友评论