美文网首页
测序数据的获取与格式转换

测序数据的获取与格式转换

作者: 15Orion上旅行 | 来源:发表于2018-12-21 19:31 被阅读0次

    目录

    测序数据的获取:SRA数据库,数据下载软件Aspera

    格式转换:SRAToolkit

    一、测序数据的获取

    1.Aspera安装

    Aspera利用fasp™ 传输专利技术,它是一项突破性传输协议,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快数百倍,具有端对端安全性、100% 可靠性以及卓越的带宽控制能力。

    Ubuntu下安装Aspera connect

    
    wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
    
    tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
    
    sh aspera-connect-3.6.2.117442-linux-64.sh
    
    ~/.aspera/connect/bin/ascp -h
    
    

    输入后出现:

    image

    2.SRA数据库使用

    SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

    在浏览器访问NCBI,FTP服务器:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

    image

    逐级访问目标文件

    image

    3.利用Aspera下载SRA文件:

    
    ~/.aspera/connect/bin/ascp -T -i /home/用户名/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/目标路径(如上图为SSR693/SSR6937757.sra) ./
    
    

    参数说明:

    -T 不进行加密。若不添加此参数,可能会下载不了

    -i string 输入私钥,安装aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

    -l string 设置最大传输速度,比如设置为200M 则表示最大传输速度为200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

    -k 1 支持断点续传

    二、数据格式转换——SRA toolkit

    1.SRA toolkit安装:

    
    wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz
    
    tar zvxf sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/
    
    echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc
    
    source ~/.bashrc
    
    

    2.fastq-dump解压缩

    SRA toolkit中的fastq-dump能对SRA文件进行解压缩:

    
    fastq-dump --gzip --split-files SRR6937757.sra
    
    
    image

    相关文章

      网友评论

          本文标题:测序数据的获取与格式转换

          本文链接:https://www.haomeiwen.com/subject/ulvvkqtx.html