美文网首页
从头预测基因-GlimmerHMM

从头预测基因-GlimmerHMM

作者: 斩毛毛 | 来源:发表于2020-05-07 14:13 被阅读0次

官网手册戳这里

GlimmerHMM是基于Generalized Hidden Markov Model (GHMM)进行基因预测,GlimmerHMM把一个基因看做几种特征序列(状态)的有序切换,这些特征序列包括内含子,基因间隔区,四种外显子(第一个外显子,中间的外显子,最后一个外显子,唯一的外显子),切换的过程形成马尔科夫链。

该软件的一些假设

  • 每个基因开始于起始密码子ATG(but partial genes can be predicted)
  • 每个基因阅读框内除最后一个密码子外没有终止密码子(no in-frame stop codons)
  • 每个外显子与前一个外显子在同一个阅读框中。(翻译阅读时外显子间没有移框)

优点:GlimmerHMM的搜索范围下降,从而计算效率得以提高。
缺点:真正的移框外显子(genuine frame shifts)无法被检测到。

软件安装

戳👇这里进去下载即可
戳我
减压缩即可使用

模型训练

GlimmerHMM需要一个训练数据集,包含尽可能多的来自生物体基因组的完整编码序列,用于进行基因预测,目前训练的模型有拟南芥,水稻,人类,斑马鱼,线虫

  • 数据收集

(1)已经有良好实验背景的该物种基因信息(理想状况,一般不会太多)
(2)从非冗余蛋白数据库(nr)中搜索能够map到基因组上的长ORFs(大于500bp),获取外显子位置信息 (比较常见)
(3) PASA?

  • 开始训练

trainGlimmerHMM <mfasta_file> <exon_file> [optional_parameters]

其中 \color{red}{mfasta_file} 为fasta的序列文件(下载的近源物种基因组序列无需整理)

>seq1
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTT
CTAGCTAGCTAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGC
>seq2
TTTAGCTAGCTAGCATAGCATACGAGCATATCGGTAGACTGATTGGGTTTA
TGCGTTA

\color{red}{exon_file}为外显子位置信息,这个文件要求与mfasta_file一致:序列名称一致,位置序号正确指代mfasta_file的序列,不同的序列之间用空行隔开。

seq1 5 15
seq1 20 34

seq1 50 48
seq1 45 36

seq2 17 20

这个例子中,序列sep1具有两个基因,第一个在先导链上(the direct strand)后一个在互补链上,每个基因有两个外显子。
这里有一份真实的mfasta_fileexon_file,可用于理解exon_file

如果训练集中序列太少,程序会自动警告并且退出,默认情况下要求至少50个具有完整起始密码子(ATG)和终止密码子(TAA/TAG/TGA)的基因在训练集中。

运行GlimmerHMM

glimmerhmm_linux fasta.file -d trained_dir/arabidopsis -g -n 1

#参数
-g Print output in gff format
-n Print top n best predictions

相关文章

  • 从头预测基因-GlimmerHMM

    官网手册戳这里 GlimmerHMM是基于Generalized Hidden Markov Model (GHM...

  • 无root权限安装libstdc++.so.5

    在使用GlimmerHMM中的glimmerhmm_linux进行基因预测的,报了个错 从这个错误来看似乎是要安装...

  • Augustus 基因从头预测

    目前的从头预测软件大多是基于HMM(隐马尔科夫链)和贝叶斯理论,通过已有物种的注释信息对软件进行训练,从训练结果中...

  • 基因结构注释

    基因结构注释的方法包括: 从头预测根据基因结构的特征,基于算法(大多为隐马尔可夫模型)进行预测 蛋白注释根据物种自...

  • Augustus

    在基因组注释中,预测基因结构是最核心的一环,在众多的从头预测软件中,augustus应用较广。但是由于安装过程依赖...

  • 基因组注释之从头预测

    1.创建本地BLAST数据库 使用makeblastdb程序,对上述FASTA格式的蛋白 质序列进行处理,建立本地...

  • 使用MAKER进行基因注释(基础入门)

    在基因组注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测...

  • maker基因组注释一(基础篇)

    在基因组注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测...

  • Meta基因预测:概念

    什么是基因预测 所谓基因预测,简单地讲就是预测编码区(CDS)。 原核生物与真核生物基因的差别: 真核生物基因有内...

  • 基因预测及注释原理

    基因预测方法(一)基因预测方法(二)基因识别需要解决两大问题:预测出编码蛋白质的区域,并找出基因的各个功能位点主要...

网友评论

      本文标题:从头预测基因-GlimmerHMM

      本文链接:https://www.haomeiwen.com/subject/eksightx.html