美文网首页
使用gmap 进行基因组结构预测

使用gmap 进行基因组结构预测

作者: 惊鸿影 | 来源:发表于2023-07-13 12:36 被阅读0次

可以直接用conda安装

conda install -c bioconda gmap

如下步骤假设你有一个基因组序列和一个参考的同种或近缘CDS序列,分别命名为"genome.fa"和"cds.fa" (其中genome是作为reference来构建索引的,和cds一定要区分开,前面看到的好多教程都没说清哪个作为reference的,弄混了好久)

第一步:构建GMAP/GSNAP索引数据库

GMAP对FASTA文件中每个记录下的序列的长度有一定限制, 每一条不能超过4G, 能应付的了大部分物种了。

构建索引分为两种情况考虑,第一种是一个fasta文件包含所有的序列

gmap_build -D ./genome -d genome_reference genome.fa

# -D 指定建立索引的文件夹的位置,可以根据你的基因组名字新建一个目录
# -d 指定建立索引的文件夹的名字  在这里我是新建了一个genome的目录再在genome的目录下新建了一个genome_reference目录作为存放索引

第二种则是每个染色体的序列都单独存放在一个文件夹里,比如说你下载人类参考基因组序列解压后发现有N多个fasta文件, 然后你就想用其中几条染色体构建索引

gmap_build  -D ./genome -d genome_reference Chr1.fa 
Chr2.fa Chr3.fa ...

注: 这里的-d表示数据K库的名字,默认把索引存放在gmap安装路径下的share里,可以用-D更改.此外还有一个参数-k用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。

gmap -D ./genome_gmap -d genome_reference   -t 8 -f  gff3_gene cds.fa > genome.gff3
#千万不要用nohup运行

之后获得一个gff3文件,就可以使用gffread提取CDS区域了

根据GFF或者GTF提取CDS,蛋白质和外显子序列

gffread genome.gff3 -g genome.fa -x cds.fa -y pep.fa -w cdna.fa

只提取翻译后蛋白序列

gffread genome.gff3 -g genome.fa -y tr_pep.fa

根据reference提取CDS序列

gffread genome.gff3 -g genome.fa -x cds.fa

只提取外显子序列

gffread genome.gff3 -g genome.fa -w exons.fa

相关文章

  • 如何使用GMAP/GSNAP进行转录组序列比对

    GMAP最早用于讲EST/cDNA序列比对到参考基因组上,可以用于基因组结构注释。后来高通量测序时代,又开发了GS...

  • [基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

    GMAP最早用于讲EST/cDNA序列比对到参考基因组上,可以用于基因组结构注释。后来高通量测序时代,又开发了GS...

  • 【基因组注释】GMAP安装使用问题

    homology策略预测基因结构,下载了公共mRNA/CDS序列,考虑用gmap比对。本来是个很简单的脚本,但总是...

  • Prakapenka2020 单倍型GP的计算程序

    GVCHAP:使用单倍型和SNP标记进行基因组预测和方差成分估计的计算管道 单倍型预测模型为提高基因组选择的准确性...

  • 基因组注释流程

    一、使用Regtag将contig挂到染色体上 二、使用Repeatmasker进行基因组数据屏蔽: 三、基因预测...

  • GMAP使用

    感觉真坑。每次用这个软件都忘记怎么用,看帮助文档,查中文资料都不对。。。 目前只用了建立索引和比对俩个功能 1 建...

  • 【基因组注释】同源注释比对软件tblastn、gamp和exon

    基因结构预测中同源注释策略,将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中,在文章中通常使用以下比对...

  • 基因功能注释

    基因功能的注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的 蛋白序列 和主流的数据库进行比对,完...

  • dRep物种集去冗余

    drep可对基因组集去冗余,留下非冗余基因组集。从运行过程来看,先进行基因预测,然后用chekm做基因组质控,也因...

  • Augustus

    在基因组注释中,预测基因结构是最核心的一环,在众多的从头预测软件中,augustus应用较广。但是由于安装过程依赖...

网友评论

      本文标题:使用gmap 进行基因组结构预测

      本文链接:https://www.haomeiwen.com/subject/jnrpudtx.html