大家好,我是一个生物信息学专业本科生,第一次发博文。
最近老师留了一个项目,要在文昌鱼组装基因组中寻找病毒整合的序列。经过一天的学习,我把思路整理了一下。
一、下载NCBI病毒基因组序列到服务器
```
wget https://ftp.ncbi.nih.gov/genomes/Viruses/all.fna.tar.gz
tar -xzvf all.fna.tar.gz
```
如果你想下载别的形式的基因组,比如氨基酸序列,可以在上述网址中查看。
二、如何利用本地Blast进行比对
Blast+的下载,可以用conda或者直接在NCBI官网进行下载。conda的好处就是比较无脑,不需要担心配置什么的。
然后很重要的一个问题就是,上述解压缩后的文件,是这样的:一个文件夹下有7530种病毒,各自占一个文件夹。每种病毒文件夹下,是这种病毒的序列(共9569条序列)。
然而blast比对需要建库,而且必须是对一个fasta序列文件进行建库。那么现在就需要将多个文件夹下的.fna文件合并。经过一番搜索,发现下面这个命令非常的好用。
```
find /path/to/parent -name '*.fna' -exec cp -t /path/to/newdir {} +
cat *.fna > ~/viral.fna
```
接下来对所有病毒的序列进行建库,就可以用文昌鱼基因组去比对啦!
```
makeblastdb -in viral.fna -dbtype nucl -out virus_by_wu
blastn -query amphi_genome.fasta -db virus_by_wu -out result.txt
```
最终找到了44个病毒基因组序列和对应的文昌鱼的基因组中的序列相似度比较高!
三、
多查查资料,或者尝试用英文搜索一些linux的命令行问题都是可以的!
比如 多个文件夹下合并的那个命令,就是靠 "make files in multiple directories into one directory" 这种“傻瓜”方式搜出来的!见下面这个网站,是一个Ubuntu系统的交流论坛。
command line - How to copy files from multiple directories? - Ask Ubuntu
网友评论