目录
测序数据的获取:SRA数据库,数据下载软件Aspera
格式转换:SRAToolkit
一、测序数据的获取
1.Aspera安装
Aspera利用fasp™ 传输专利技术,它是一项突破性传输协议,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快数百倍,具有端对端安全性、100% 可靠性以及卓越的带宽控制能力。
Ubuntu下安装Aspera connect
wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
sh aspera-connect-3.6.2.117442-linux-64.sh
~/.aspera/connect/bin/ascp -h
输入后出现:
image2.SRA数据库使用
SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。
在浏览器访问NCBI,FTP服务器:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/
image逐级访问目标文件
image3.利用Aspera下载SRA文件:
~/.aspera/connect/bin/ascp -T -i /home/用户名/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/目标路径(如上图为SSR693/SSR6937757.sra) ./
参数说明:
-T 不进行加密。若不添加此参数,可能会下载不了
-i string 输入私钥,安装aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
-l string 设置最大传输速度,比如设置为200M 则表示最大传输速度为200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。
-k 1 支持断点续传
二、数据格式转换——SRA toolkit
1.SRA toolkit安装:
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz
tar zvxf sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/
echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
2.fastq-dump解压缩
SRA toolkit中的fastq-dump能对SRA文件进行解压缩:
fastq-dump --gzip --split-files SRR6937757.sra
image
网友评论