[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

作者: 巩翔宇Ibrahimovic | 来源:发表于2020-01-04 12:33 被阅读0次

GMAP最早用于讲EST/cDNA序列比对到参考基因组上，可以用于基因组结构注释。后来高通量测序时代，又开发了GSNAP支持高通量数据比对。

软件安装

我采用的是利用源代码且在无root权限下进行安装。

wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2019-09-12.tar.gz
tar zxvf gmap-gsnap-2019-09-12.tar.gz
cd gmap-2019-09-12/
./configure --prefix=/your/usr/local/path --with-gmapdb=/path/to/gmapdb
make
make check   (optional)
make install
#接下来添加到环境变量
vim ~/.bashrc
source ~/.bashrc

软件使用
假设你有一个未知的reference序列和已知的CDS序列,你想知道这个CDS上的基因有多少能匹配到reference上。

#首先构建索引数据库（我建立的是包含所有序列的fasta文件）
gmap_build -d reference reference.fasta

这里的-d表示数据K库的名字，默认把索引存放在gmap安装路径下的share里，可以用-D更改.此外还有一个参数-k用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。

#正式使用，得到gff文件
gmap -t 10 -d reference -f gff3_gene cds.fasta > reference_cds.gff
#得到基因组上的蛋白序列
gmap -t 10 -d reference -Q cds.fasta > reference_protein.fasta

-t设置线程数, -d表示参考基因组数据库的名字, 都是常规参数，设置 -Q 输出基因组上的蛋白序列。

参考链接：

https://www.jianshu.com/p/3f331861c364

http://research-pub.gene.com/gmap/src/README

网友评论

本文标题：[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

本文链接：https://www.haomeiwen.com/subject/kzatactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信工具

生信