美文网首页生信工具生信
[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

作者: 巩翔宇Ibrahimovic | 来源:发表于2020-01-04 12:33 被阅读0次

    GMAP最早用于讲EST/cDNA序列比对到参考基因组上,可以用于基因组结构注释。后来高通量测序时代,又开发了GSNAP支持高通量数据比对。

    软件安装

    我采用的是利用源代码且在无root权限下进行安装。

    wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2019-09-12.tar.gz
    tar zxvf gmap-gsnap-2019-09-12.tar.gz
    cd gmap-2019-09-12/
    ./configure --prefix=/your/usr/local/path --with-gmapdb=/path/to/gmapdb
    make
    make check   (optional)
    make install
    #接下来添加到环境变量
    vim ~/.bashrc
    source ~/.bashrc
    

    软件使用
    假设你有一个未知的reference序列和已知的CDS序列,你想知道这个CDS上的基因有多少能匹配到reference上。

    #首先构建索引数据库(我建立的是包含所有序列的fasta文件)
    gmap_build -d reference reference.fasta
    

    这里的-d表示数据K库的名字,默认把索引存放在gmap安装路径下的share里,可以用-D更改.此外还有一个参数-k用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。

    #正式使用,得到gff文件
    gmap -t 10 -d reference -f gff3_gene cds.fasta > reference_cds.gff
    #得到基因组上的蛋白序列
    gmap -t 10 -d reference -Q cds.fasta > reference_protein.fasta
    

    -t设置线程数, -d表示参考基因组数据库的名字, 都是常规参数,设置 -Q 输出基因组上的蛋白序列。

    参考链接:

    https://www.jianshu.com/p/3f331861c364

    http://research-pub.gene.com/gmap/src/README

    相关文章

      网友评论

        本文标题:[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

        本文链接:https://www.haomeiwen.com/subject/kzatactx.html