菜鸟自学02：下载参考基因组及构建bowtie2索引

作者: guguaihezi | 来源:发表于2019-03-08 10:05 被阅读0次

把之前写在CSDN的博文搬运了过来，集中记录自己的学习过程。

1.下载参考基因组

根据文章里的“Data deposition: The sequence reported in this paper has been deposited in the GenBank database (accession no. AE005673).”，可进入genebank下载数据。
下载选择：1）如果想直接下到服务器里，一般选择send to-files-summary，然后会下载得到一个文件，里面有download的地址，再在服务器里wget就行了，但是我试了一下，文件里只有三行基本的数据描述信息。
2）选择fasta格式先下载到本地，再上传服务器。注：ncbi的ftp服务器一般是用于下载GEO的数据。
3）可选择不同的数据库。常用参考基因组下载地址

Ensembl数据库是由欧洲分子生物学实验室下属的生物信息研究所以及sanger公司共同开发，提供真核生物基因序列及其注释信息并对之进行管理的数据库。除此以外，Ensembl还能进行基因信息整合、数据分析以及生物信息学处理等功能，被广泛应用。Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库。

mkdir -p ~/project/hic/ref
cd ~/project/hic/ref
nohup wget ftp://ftp.ensemblgenomes.org/pub/bacteria/release-40/fasta/bacteria_20_collection/caulobacter_crescentus_na1000/dna/Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa.gz &

2.构建bowtie2索引
对于生信小白我而言，摆在我面前的主要有两个问题：bowtie2是干嘛的软件？为什么要构建bowtie2索引？
问题1：bowtie2是干嘛的软件？

Bowtie是一个超级快速的，较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时，可以达到每小时2.5亿次的拼接速度。
Bowtie并不是一个简单的拼接工具，它不同于Blast等。它适合的工作是将小序列比对至大基因组上去。它最长能读取1024个碱基的片段。模板最小尺寸不能小于1024碱基，而短序列最长而不能超过1024碱基。换言之，bowtie非常适合下一代测序技术。
在使用bowtie前，需要使用bowtie-build来构建比对模板。

问题2：为什么要构建bowtie2索引？
我的理解应该是提高查询速度，毕竟bowtie的作用就是在大的字符串里找小字符串，涉及到BTW算法，我这菜鸟就不懂了。。生信进阶就是要知其然并知其所以然的。

直接locate bowtie2，选择/bin/bowtie2-build 再右键过去，就会出来bowtie2的具体信息啦，然后就可以直接使用啦。
记住要进入文件所在文件夹才行。
得到6个索引文件。完成。

网友评论

转录组测序学习

本文标题：菜鸟自学02：下载参考基因组及构建bowtie2索引

本文链接：https://www.haomeiwen.com/subject/homlpqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

菜鸟自学02：下载参考基因组及构建bowtie2索引

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

转录组测序学习