美文网首页
充钱也不一定变强,腾讯云服务器建小麦基因组index

充钱也不一定变强,腾讯云服务器建小麦基因组index

作者: 邵扬_Barnett | 来源:发表于2020-11-02 18:58 被阅读0次

    写在前面

    求爷爷告奶奶的在服务器上跑了几次hisat2目录,还是因为小麦基因组太大无法成功。最后只能去了外显子和可变剪切建立index。终归是不死心,虽然唐医生表示可以借我一个512内存的服务器跑index,但这东西求人不如求己吧。再加上其间已经有两个人跟我说可以租用云服务器建立index,200块钱就能搞定。择日不如撞日,于是拿着300大洋去试试腾讯云了。


    前期准备

    众所周知,esembl的下载速度想当玄学,用几十核心的服务器跑下载那是相当的奢侈了。所以最好提前把所有的文件准备好,找一个靠谱的网盘,避免在下载上浪费时间。我这里选择的是奶牛快传。
    之后是找齐一系列的连接和代码。比如:

    miniconda

    #下载miniconda
    wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    #安装miniconda
    bash Miniconda3-latest-Linux-x86_64.sh
    #激活
    source .bashrc
    

    奶牛快传

    #下载奶牛并安装
    curl -sL [https://git.io/cowtransfer](https://git.io/cowtransfer) | sh
    #给奶牛改个名
    mv cowtransfer-uploader cow
    

    conda下的安装

    #安装hisat2
    conda install -c bioconda hisat2
    #安装screen,主要是方便上去查看进度
    conda install -c conda-forge screen
    

    服务器购买

    服务器当然是买越大越好,但越大的价格嘛就越贵了。我的建议是看你的dna.fa文件大小,人类的基因组需要大约160G内存。小麦基因组有14g多,预估计使用的内存量就是14/3*160g=747g。注意这里说的文件并不包涵SNP,如果还需要考虑SNP,那么也要把SNP包含在里头。之前有人告诉我人类3G的基因组+外显子+可变剪切+SNP总计需要200G以上的内存,所以……最后记得硬盘也得有内存那么大的体积。
    整个服务器选购流程没什么说的,直接按需求选择就好了



    注意,如果你不清楚linux下的操作以及如何使用ssh连接服务器。我建议你先买个腾讯88元的一年服务器练练手或者去生物技能树学习一下

    开跑

    等服务器建立后立马登录进去开始操作吧。
    首先开两个窗口一个下载数据,另一个趁这段时间配置好环境。
    命令都写在开头了就不赘述了。
    文件下载好后解压缩

    -x 解压缩 -z zip格式 -v 显示解压缩过程 -f 需要解压缩的文件名字
    tar -xzvf file.tar.gz
    

    列一下常用的tar命令

    压缩
    
    tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
    tar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jpg.tar.gz
    tar –cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用bzip2压缩,生成一个bzip2压缩过的包,命名为jpg.tar.bz2
    tar –cZf jpg.tar.Z *.jpg   //将目录里所有jpg文件打包成jpg.tar后,并且将其用compress压缩,生成一个umcompress压缩过的包,命名为jpg.tar.Z
    
    解压
    
    tar –xvf file.tar //解压 tar包
    tar -xzvf file.tar.gz //解压tar.gz
    tar -xjvf file.tar.bz2   //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Z
    

    具体参考这个:https://www.cnblogs.com/jyaray/archive/2011/04/30/2033362.html

    之后运行:

    #开启窗口,防止ssh断线导致程序中断
    screen -r RNA
    #build index 
    hisat2-build -p 12 --ss ss_wheat.txt --exon exon_wheat.txt dna.fa IWGSC
    

    之后等着就行了。创建的文件大概有这些。


    可以看到占用了429g内存

    这里有个有意思的点是,648G内存还是不够,所以所以买了648G内存也不会变更强!(我是个憨批)
    Settings:
    Output files: "IWGSC..ht2l"
    Line rate: 8 (line is 256 bytes)
    Lines per side: 1 (side is 256 bytes)
    Offset rate: 4 (one in 16)
    FTable chars: 10
    Strings: unpacked
    Local offset rate: 3 (one in 8)
    Local fTable chars: 6
    Local sequence length: 57344
    Local sequence overlap between two consecutive indexes: 1024
    Endianness: little
    Actual local endianness: little
    Sanity checking: disabled
    Assertions: disabled
    Random seed: 0
    Sizeofs: void:8, int:4, long:8, size_t:8
    Input files DNA, FASTA:
    dna.fa
    Reading reference sizes
    Time reading reference sizes: 00:01:21
    Calculating joined length
    Writing header
    Reserving space for joined string
    Joining reference sequences
    Time to join reference sequences: 00:00:51
    Time to read SNPs and splice sites: 00:00:35
    Ran out of memory; automatically trying more memory-economical parameters.
    

    暂时分享个纯genome的hisat2的index吧……已经跟课题组申请aws服务器了,等到位了就去跑……
    https://cowtransfer.com/s/31d15fd04c0640

    最后,祝科研顺利……

    相关文章

      网友评论

          本文标题:充钱也不一定变强,腾讯云服务器建小麦基因组index

          本文链接:https://www.haomeiwen.com/subject/krnyvktx.html