美文网首页单细胞上游分析
单细胞原始SRA数据下载

单细胞原始SRA数据下载

作者: 夕颜00 | 来源:发表于2022-01-18 17:43 被阅读0次

    拟下载10X基因组数据GSE134520,该数据集对应的SRA编号为SRP215370

    这个数据集一共测了9个病人的单细胞数据(包括了3个浅表性胃炎、3个慢性萎缩性胃炎、6个肠上皮化生、1个早期胃癌)PS:由于数据太大,这里就不全部下载,只选择其中几个样本进行下载分析.

    ** 0、配置环境

    conda create -n sra-toolkit
    conda activate sra-toolkit
    

    一、下载SRA数据前的准备

    1、首先要先安装prefetch 和ascp

    Prefetch是sratools中的一个小工具,可以直接安装:

    conda install -c daler sratoolkit
    

    可以显示帮助文档就说明安装成功

    prefetch –h
    

    如果要下载数据比如SRR文件,直接加ID号,指定输出目录就好

    prefetch SRRxxxxxxx -O PATH
    

    2、默认情况下,prefetch是利用https方式去下载原始数据,这个就像直接从网页下载一样,速度有一定的限制。因此这里需要先安装一款叫做"aspera"的下载工具,它是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同

    ** 二、下载aspera安装包

    1.aspera下载
    先进入https://www.ibm.com/products/aspera/downloads?list
    然后找到如图所示的IBM Aspera Connect。因为数据一般是下载在服务器上,所以需要选择linux版本进行安装。

    image.png
    wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect3.7.4.147727-linux-64.tar.gz
    
    image.gif

    将下载的安装包解压

    tar zxvfibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
    

    安装aspera

    sh ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh 
    

    查看是否安装成功

    cd /home/hej/.aspera/connect/bin
    

    显示帮助文档就说明安装成功

    ./ascp –help
    

    永久添加环境变量

    echo 'export PATH=~/.aspera/connect/bin:$PATH'>> ~/.bashrc
    

    最好写绝对路径

    echo 'export PATH=/home/limf/.aspera/connect/bin:$PATH'>> ~/.bashrc
    

    最后检查ascp是不是能用了

    ascp –help
    

    *ascp安装成功后,prefetch就会默认将下载方式从https转移到fasp,说明开启加速模式

    二、开始下载SRA数据

    1、将要下载的数据对应的SRR编号存在文件SRR_Acc_List.txt中

    那么如何获取想要下载的数据集样本对应的SRR编号呢?

    方法如下:

    ① 进入NCBI-SRA界面,选择SRA Run Selector

    图片

    ② 输入SRP215370

    图片

    ③下载Accession List

    图片

    Accession List具体内容如下:

    图片

    2、运用prefetch和aspera下载单个文件

    对单个文件进行下载

    prefetch SRR9713119-O `pwd` && echo "** SRR****.sra done **"
    

    下载完成时会显示如下

    图片

    3、运用prefetch和aspera进行批量下载

    对批量文件进行下载,将依次下载SRR_Acc_List.txt文件中SRR编号对应的数据

    cat SRR_Acc_List.txt| while read i
    

    4、有时候SRR_Acc_List.txt文件中列出来的数据,通过prefetch和aspera有可能下载不下来,所以这里介绍另一种补充的下载方式。

    ①、进入EBI官网https://www.ebi.ac.uk/ena

    搜索SRA编号

    图片

    ②、运用EBI下载的好处是可以选择直接下载fastq格式的文件,也可以选择下载SRA格式的文件。可以根据以下步骤获得fastq文件或者SRA文件所在的链接。

    图片

    ③ 、可以直接在网页下载也可以将获得的链接粘贴到以下代码中进行下载

    ascp -QT -l 300m-P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR971/009/SRR9713119./
    

    转载来自:
    李呆呆的学习笔记

    相关文章

      网友评论

        本文标题:单细胞原始SRA数据下载

        本文链接:https://www.haomeiwen.com/subject/nfcnxrtx.html