美文网首页Chip-seq
如何在NCBI下载SRA文件?

如何在NCBI下载SRA文件?

作者: Htt_1996 | 来源:发表于2020-04-24 20:34 被阅读0次

    1.什么是GEO数据库? 

     GEO数据库全称Gene ExpressionOmnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。

     2.    GEO提供的数据类型有那些呢? 

     GEO数据库的4个概念和4个数据存放类型: GSE数据编号(Series) GPL数据编号(GEO platforms) GSM数据编号(Samples) GDS数据编号(Datasets) 一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。 

     3.    如何根据GSE/SRA/SRR号进行原始的数据下载?

    https://www.jianshu.com/p/03d7db3d5e82

     4.    如何高速下载SRA文件? 

    参考网站:https://www.cnblogs.com/renping/p/7977472.html

             方法主要有: 

      l  首选Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,我们可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。下载完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。 

     l  其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令。 l  最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本。 

     l  (警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!) 

     5.   Aspera Connect命令行工具ascp的安装

     安装 

    wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

    # (首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址)  

    tar  zxvf  aspera-connect-3.7.4.147727-linux-64.tar.gz #(解压缩) 

    bash  aspera-connect-3.7.4.147727-linux-64.sh 

    # 查看是否有.aspera文件夹

    cd  ~    # 打开根目录

    ls  -a    # 软件安装在根目录下的隐藏文件夹中,如果看到.aspera文件夹,代表安装成功 # 永久添加环境变量

    echo  'exportPATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource  ~/.bashrc 

    # 查看帮助文档ascp  –help  

    ascp使用举例:

    ascp-v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra~/biostar/aspera/  

     报错:(ascp: Failed to open TCP connection forSSH, exiting) 

    查找原因:https://www.jianshu.com/p/9915fce02b10 

    Debug: 改用上面网址中的命令 time prefetch SRR6795677 ( 使用不了 nohup&,不知道为什么?)

              下载完成后:ll -h 查看下载文件的大小(和NCBI文件大小信息进行比较),防止文件不完整。 

              此时下数据载到/public/home/thu/ncbi/public/sra文件夹下面。

    相关文章

      网友评论

        本文标题:如何在NCBI下载SRA文件?

        本文链接:https://www.haomeiwen.com/subject/uqburqtx.html