美文网首页生信分析磕盐——从入门到自闭
RNA-seq从入门到自闭(数据下载)

RNA-seq从入门到自闭(数据下载)

作者: 邵扬_Barnett | 来源:发表于2020-09-09 09:26 被阅读0次

    使用TBtools,大家可以轻松从NCBI和ENA获得文件的下载地址。接下来就是下载SRA文件。



    sra文件的下载方式有很多种,你可以用迅雷离线拖,百度离线下载,也可以用选择网页下载。
    在这里我简单介绍上述方法外的三种下载方式。

    1. wget下载

    wget是linux下常用的下载方式,首先你需要安装linux。如果你是win10系统,把系统升级到最新版也能安装一个linux系统。具体安装方法可以参考下面的链接(不是最新攻略,参考就好)。希望大家都能从这一步开始装上linux子系统,因为未来介绍的命令行操作都只能在linux shell下实现。需要注意的是,安装linux子系统需要留出8G左右的空间,如果你的C盘不够大就只能自己想办法了。
    https://zhuanlan.zhihu.com/p/62658094
    之后还需要安装wsl-terminal。具体的安装方法参考这里。
    https://github.com/mskyaxl/wsl-terminal/blob/master/README.zh_CN.md#%E5%B7%A5%E5%85%B7
    安装好linux和wsl-terminal后,就能用wget下载数据了。这里以ENA的ftp地址为例。首先你需要新建一个文件夹(文件名最好有自己固定的风格,例如:SRA_Triticum_Aestivum_drought_2020-9)。命名不规范,以后改起来太麻烦。


    之后右键打开wsl-terminal

    你可以在这里输入你需要的命令了。注意这里没办法使用ctrl+v这类快捷键。

    最好还是用右键复制+粘贴吧。

    说回下载地址,从图中不难看出,所有的地址只有在00B和SRR51316AB上有差别,其中B这位数可以看作是AB的最后一位数,在数学上可以通过取余数获得。随手百度发现linux shell的取余数代码是:
    $(($i % 10));
    

    for语句同理也能搜到,

    for i in `seq 56 79`; 
    do
        j=$(( $i % 10 ));
        wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/00${j}/SRR51316${i};
    done
    

    当然你可以使用更加粗暴的语句:

    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/006/SRR5131656
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/007/SRR5131657
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/008/SRR5131658
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/009/SRR5131659
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/000/SRR5131660
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/001/SRR5131661
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/002/SRR5131662
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/003/SRR5131663
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/004/SRR5131664
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/005/SRR5131665
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/006/SRR5131666
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/007/SRR5131667
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/008/SRR5131668
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/009/SRR5131669
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/000/SRR5131670
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/001/SRR5131671
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/002/SRR5131672
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/003/SRR5131673
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/004/SRR5131674
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/005/SRR5131675
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/006/SRR5131676
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/007/SRR5131677
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/009/SRR5131679
    wget ftp.sra.ebi.ac.uk/vol1/srr/SRR513/008/SRR5131678
    

    怎么说呢,又不是不能用!



    上一次程序员朋友看到我的代码就给我发了这张图,你们说是不是该跟他绝交了。按你胃,有不是不能用!反正能跑就行了。
    最后贴一下wget参数一览

    -A<后缀名>:指定要下载文件的后缀名,多个后缀名之间使用逗号进行分隔;
    -b:进行后台的方式运行wget;
    -B<连接地址>:设置参考的连接地址的基地地址;
    -c:继续执行上次终端的任务;
    -C<标志>:设置服务器数据块功能标志on为激活,off为关闭,默认值为on;
    -d:调试模式运行指令;
    -D<域名列表>:设置顺着的域名列表,域名之间用“,”分隔;
    -e<指令>:作为文件“.wgetrc”中的一部分执行指定的指令;
    -h:显示指令帮助信息;
    -i<文件>:从指定文件获取要下载的URL地址;
    -l<目录列表>:设置顺着的目录列表,多个目录用“,”分隔;
    -L:仅顺着关联的连接;
    -r:递归下载方式;
    -nc:文件存在时,下载文件不覆盖原有文件;
    -nv:下载时只显示更新和出错信息,不显示指令的详细执行过程;
    -q:不显示指令执行过程;
    -nh:不查询主机名称;
    -v:显示详细执行过程;
    -V:显示版本信息;
    --passive-ftp:使用被动模式PASV连接FTP服务器;
    --follow-ftp:从HTML文件中下载FTP连接文件。</pre>
    来源:https://man.linuxde.net/wget

    2. Aspera

    TBtools里已经支持这一功能,并且从NCBI和ENA获得的地址中也包含了Aspera的地址。具体操作看这里
    https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ
    如果你对命令行的方式感兴趣,可以在linux下安装aspera。具体安装可以参考这篇文章
    https://www.jianshu.com/p/44265b4ab0b2
    因为aspera功能总出问题,本人的网络也被禁用了aspera下载需要的端口。所以就仅供参考吧。

    3. XDM

    其实有了地址,用浏览器下也好用迅雷下也好都是一样的。之前也有人推荐过IDM
    https://www.internetdownloadmanager.cn/
    是个收费软件,那么有没有更香的软件,最好是免费的?
    有的!
    https://subhra74.github.io/xdm/


    安装好界面

    点击加号添加文件

    添加地址后点击开始

    小结:本文简单介绍了下载sra文件的几种方式,同理,同样也可以用类似的方式下载fastq文件。最后,祝磕盐顺利。

    相关文章

      网友评论

        本文标题:RNA-seq从入门到自闭(数据下载)

        本文链接:https://www.haomeiwen.com/subject/mbzkektx.html