拟下载10X基因组数据GSE134520,该数据集对应的SRA编号为SRP215370
这个数据集一共测了9个病人的单细胞数据(包括了3个浅表性胃炎、3个慢性萎缩性胃炎、6个肠上皮化生、1个早期胃癌)PS:由于数据太大,这里就不全部下载,只选择其中几个样本进行下载分析.
** 0、配置环境
conda create -n sra-toolkit
conda activate sra-toolkit
一、下载SRA数据前的准备
1、首先要先安装prefetch 和ascp
Prefetch是sratools中的一个小工具,可以直接安装:
conda install -c daler sratoolkit
可以显示帮助文档就说明安装成功
prefetch –h
如果要下载数据比如SRR文件,直接加ID号,指定输出目录就好
prefetch SRRxxxxxxx -O PATH
2、默认情况下,prefetch是利用https方式去下载原始数据,这个就像直接从网页下载一样,速度有一定的限制。因此这里需要先安装一款叫做"aspera"的下载工具,它是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同
** 二、下载aspera安装包
1.aspera下载
先进入https://www.ibm.com/products/aspera/downloads?list
然后找到如图所示的IBM Aspera Connect。因为数据一般是下载在服务器上,所以需要选择linux版本进行安装。
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect3.7.4.147727-linux-64.tar.gz
image.gif
将下载的安装包解压
tar zxvfibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
安装aspera
sh ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh
查看是否安装成功
cd /home/hej/.aspera/connect/bin
显示帮助文档就说明安装成功
./ascp –help
永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH'>> ~/.bashrc
最好写绝对路径
echo 'export PATH=/home/limf/.aspera/connect/bin:$PATH'>> ~/.bashrc
最后检查ascp是不是能用了
ascp –help
*ascp安装成功后,prefetch就会默认将下载方式从https转移到fasp,说明开启加速模式
二、开始下载SRA数据
1、将要下载的数据对应的SRR编号存在文件SRR_Acc_List.txt中
那么如何获取想要下载的数据集样本对应的SRR编号呢?
方法如下:
① 进入NCBI-SRA界面,选择SRA Run Selector
图片② 输入SRP215370
图片③下载Accession List
图片Accession List具体内容如下:
图片2、运用prefetch和aspera下载单个文件
对单个文件进行下载
prefetch SRR9713119-O `pwd` && echo "** SRR****.sra done **"
下载完成时会显示如下
图片3、运用prefetch和aspera进行批量下载
对批量文件进行下载,将依次下载SRR_Acc_List.txt文件中SRR编号对应的数据
cat SRR_Acc_List.txt| while read i
4、有时候SRR_Acc_List.txt文件中列出来的数据,通过prefetch和aspera有可能下载不下来,所以这里介绍另一种补充的下载方式。
①、进入EBI官网https://www.ebi.ac.uk/ena
搜索SRA编号
图片②、运用EBI下载的好处是可以选择直接下载fastq格式的文件,也可以选择下载SRA格式的文件。可以根据以下步骤获得fastq文件或者SRA文件所在的链接。
图片③ 、可以直接在网页下载也可以将获得的链接粘贴到以下代码中进行下载
ascp -QT -l 300m-P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR971/009/SRR9713119./
转载来自:
李呆呆的学习笔记
网友评论