充钱也不一定变强，腾讯云服务器建小麦基因组index

作者: 邵扬_Barnett | 来源:发表于2020-11-02 18:58 被阅读0次

写在前面

求爷爷告奶奶的在服务器上跑了几次hisat2目录，还是因为小麦基因组太大无法成功。最后只能去了外显子和可变剪切建立index。终归是不死心，虽然唐医生表示可以借我一个512内存的服务器跑index，但这东西求人不如求己吧。再加上其间已经有两个人跟我说可以租用云服务器建立index，200块钱就能搞定。择日不如撞日，于是拿着300大洋去试试腾讯云了。

前期准备

众所周知，esembl的下载速度想当玄学，用几十核心的服务器跑下载那是相当的奢侈了。所以最好提前把所有的文件准备好，找一个靠谱的网盘，避免在下载上浪费时间。我这里选择的是奶牛快传。
之后是找齐一系列的连接和代码。比如：

miniconda

#下载miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
#安装miniconda
bash Miniconda3-latest-Linux-x86_64.sh
#激活
source .bashrc

奶牛快传

#下载奶牛并安装
curl -sL [https://git.io/cowtransfer](https://git.io/cowtransfer) | sh
#给奶牛改个名
mv cowtransfer-uploader cow

conda下的安装

#安装hisat2
conda install -c bioconda hisat2
#安装screen，主要是方便上去查看进度
conda install -c conda-forge screen

服务器购买

服务器当然是买越大越好，但越大的价格嘛就越贵了。我的建议是看你的dna.fa文件大小，人类的基因组需要大约160G内存。小麦基因组有14g多，预估计使用的内存量就是14/3*160g=747g。注意这里说的文件并不包涵SNP，如果还需要考虑SNP，那么也要把SNP包含在里头。之前有人告诉我人类3G的基因组+外显子+可变剪切+SNP总计需要200G以上的内存，所以……最后记得硬盘也得有内存那么大的体积。
整个服务器选购流程没什么说的，直接按需求选择就好了

注意，如果你不清楚linux下的操作以及如何使用ssh连接服务器。我建议你先买个腾讯88元的一年服务器练练手或者去生物技能树学习一下

开跑

等服务器建立后立马登录进去开始操作吧。
首先开两个窗口一个下载数据，另一个趁这段时间配置好环境。
命令都写在开头了就不赘述了。
文件下载好后解压缩

-x 解压缩 -z zip格式 -v 显示解压缩过程 -f 需要解压缩的文件名字
tar -xzvf file.tar.gz

列一下常用的tar命令

压缩

tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
tar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后，并且将其用gzip压缩，生成一个gzip压缩过的包，命名为jpg.tar.gz
tar –cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后，并且将其用bzip2压缩，生成一个bzip2压缩过的包，命名为jpg.tar.bz2
tar –cZf jpg.tar.Z *.jpg   //将目录里所有jpg文件打包成jpg.tar后，并且将其用compress压缩，生成一个umcompress压缩过的包，命名为jpg.tar.Z

解压

tar –xvf file.tar //解压 tar包
tar -xzvf file.tar.gz //解压tar.gz
tar -xjvf file.tar.bz2   //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Z

具体参考这个：https://www.cnblogs.com/jyaray/archive/2011/04/30/2033362.html

之后运行：

#开启窗口，防止ssh断线导致程序中断
screen -r RNA
#build index 
hisat2-build -p 12 --ss ss_wheat.txt --exon exon_wheat.txt dna.fa IWGSC

之后等着就行了。创建的文件大概有这些。

可以看到占用了429g内存

这里有个有意思的点是，648G内存还是不够，所以所以买了648G内存也不会变更强！（我是个憨批）

Settings:
Output files: "IWGSC..ht2l"
Line rate: 8 (line is 256 bytes)
Lines per side: 1 (side is 256 bytes)
Offset rate: 4 (one in 16)
FTable chars: 10
Strings: unpacked
Local offset rate: 3 (one in 8)
Local fTable chars: 6
Local sequence length: 57344
Local sequence overlap between two consecutive indexes: 1024
Endianness: little
Actual local endianness: little
Sanity checking: disabled
Assertions: disabled
Random seed: 0
Sizeofs: void:8, int:4, long:8, size_t:8
Input files DNA, FASTA:
dna.fa
Reading reference sizes
Time reading reference sizes: 00:01:21
Calculating joined length
Writing header
Reserving space for joined string
Joining reference sequences
Time to join reference sequences: 00:00:51
Time to read SNPs and splice sites: 00:00:35
Ran out of memory; automatically trying more memory-economical parameters.

暂时分享个纯genome的hisat2的index吧……已经跟课题组申请aws服务器了，等到位了就去跑……
https://cowtransfer.com/s/31d15fd04c0640

最后，祝科研顺利……

网友评论

本文标题：充钱也不一定变强，腾讯云服务器建小麦基因组index

本文链接：https://www.haomeiwen.com/subject/krnyvktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！