美文网首页生信基础知识
转录组第2步 看文章拿数据

转录组第2步 看文章拿数据

作者: chaimol | 来源:发表于2018-03-31 14:17 被阅读78次

    参考方法步骤:徐州更GitHub

    以《RNA sequencing reveals the complex regulatory network in the maize kernel》为例。

    文章中转录组原始数据编号 SRP026161

    1. 在NCBI的sra目录里搜索SRP026161。
    2. 点击右上角的send to.
    3. 选择file runinfo,点击create file。保存到本地,这样就创建了搜索结果的CSV文件。
    点击send to
    选中file runinfo后点击create file
    1. 下载数据。
      cat srcinfo.csv | cut -d , -f 10 > srclink
    cut -d 后面是指定分隔符为逗号,找到第10个分隔符里的内容,输出到srclink文档。

    cd sra
    wget -i ../srclink

    进入sra目录下载srclink的所有链接数据。(此处sra和srclink是同级目录)

    1. 由于测序数据太大,下载速度实在太慢,安装aspera加快速度。
    #下载linux版本的aspera cli.
    wget https://download.asperasoft.com/download/sw/cli/3.9.1/ibm-aspera-cli-3.9.1.1401.be67d47-linux-64-release.sh
    
    #md5sum 查看文件的md5值,核对文件一致性。对于下载的文件,这是一个好的习惯。
    md5sum ibm-aspera-cli-3.9.1.1401.be67d47-linux-64-release.sh
    mv ibm-aspera-cli-3.9.1.1401.be67d47-linux-64-release.sh aspera.sh
    bash aspera.sh
    #添加path ,我的习惯是添加到~/.bash_profile,但是需要重启终端才能使用。根据自己的实际情况修改路径。最新版的会告诉你添加路径的代码。
    vim ~/.bash_profile
    export PATH=~/disk/soft/aspera/.aspera/cli/bin:$PATH
    
    1. 从NCBI上找到SRR的FTP下载地址
      原始来源
      ascp -T -l 200M -i -k 1 /home/chai/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912045/SRR912045.sra ./
      NCBI中,SRR数据的FTP目录前面完全相同,SRR912/代表SRR912开头的所有数据目录,SRR912045/代表SRR912045数据的目录,SRR912045.sra即是最终地址。同理SRR912646的完整地址是ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912646/SRR912646.sra
    2. aspera的使用
      需要注意几点:(chaim为我的服务器用户名目录应切换为自己对应的用户名)
    • 我们实验室的服务器需要登录校园网,故先用lynx登录后,用ping保持着后台一直有网络连接,不然会断网。
    • 服务器端可能需要重新配置path
      PATH=$PATH:/home/chaim/.aspera/connect/bin
    • sraid.txt 为本目录里的一个TXT文件,存放的是所有要下载的sra的编号,格式为

    /sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912538/SRR912538.sra
    /sra/sra-instant/reads/ByRun/sra/SRR/SRR912/SRR912638/SRR912638.sra`

    完成上述配置之后,运行下面命令,即可在后台持续下载了。

    nohup ascp -i /home/chaim/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list sraid.txt ./ &

    说明:

    需要时刻注意自己的用户名,不要用我的用户名。
    nohup task &
    其中task 表示你要执行的任务,用此命令可以使task任务持续在服务器后台运行。远程连接可以退出而不会影响远程主机的任务。
    当你退出登录时请使用logout,非正常退出可能会导致nohup的命令异常停止。
    最近测试发现exit退出,可能会造成nohup进程结束。所以使用logout靠谱。
    可能会出现各种错误 除了按照上述操作仍然出错,比如什么UDP错误SSL错误
    可能的解决办法:重新开启一个终端,进去后重新配置该软件的环境变量,之后再严格按照该命令运行。 //至少我是这样解决的。
    最近又自己把命令写进shell脚本,这样就不用每次自己输入好长的命令,毕竟国内环境问题,下载会经常莫名其妙断掉。目前没想到好的办法监控程序断掉后,自动重新连接。

    1. 使用sratool将SRA转换成fastq.
      安装sratool
      wget
      http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
      tar xzf sratoolkit.current-centos_linux64.tar.gz

    sratool的使用
    进入sratool解压的目录,更改解压后的文件明为sra
    我的目录位置是
    /home/chaim/disk/soft/sra/bin/fastq-dump --split-3 SRR910783.sra
    批量解压缩

    [shell]
    for i in *sra
    do
    echo i /home/chaim/disk/soft/sra/bin/fastq-dump --split-3i
    done
    [/shell]

    友情提示:解压缩速度特别慢,比较耗费cpu资源。

    相关文章

      网友评论

        本文标题:转录组第2步 看文章拿数据

        本文链接:https://www.haomeiwen.com/subject/ldjgcftx.html