美文网首页生信
EVM:一个基因预测结果的整合软件

EVM:一个基因预测结果的整合软件

作者: vegene | 来源:发表于2019-08-28 13:17 被阅读0次

EVM是一个自动的对真核基因结构进行注释的工具,他可以对已有的证据结合权重进行评估。

EVM和pasa结合,能够产生一个综合的,可靠的含有编码去和可变剪切的基因结构。

我们在人和水稻两个基因组上进行了验证,证明EVM可以达到类似手工注释的效果。

桑格科研出品,欢迎大家关注桑格助手  

背景

1、单一的软件搞不定。

2、ab initio gene prediction software 对于单个外显子和编码基因相关的区域很准确,但是对整体的基因结构预测很难找对整体的位置。:genscan,GlimmerHMM,Fgenesh,GeneMark.Hmm.

3、整体基因结果的修正和预测往往借助同源和转录本方法。

软件包括:AAT,exonerate,PMAP(derived from GMAP)对于真核基因组基因结构比对并有统计学模型支持的软件genewise(Ensemble annotation pipeline)。缺点在于只能解决一部分基因的整体结构问题。

4 、更综合的真核基因结果预测会同时考虑物种的内在特性(从头)和外在的一些信息(同源,转录组)。TWINSCAN,N-SCAN_EST,ExonHunter,Augustus,Genie。这样对准确性有很大的提升。

5、 早期打的基因组项目,为了保证高质量,会严重的依赖手动对结构的注释.软件包括:Apollo ,Artemis,质量高,成本高。

6、 全长CDNA(FL-cDNA)(mRNA)减少了手工注释的负担。主要提供了一个软件PASA(Program toAssemble Spliced Alignments)可以根据EST 和FL-cDNA或者加上 已有的基因结构的信息进行注释。

7 、EVM,一个对现有软件整合的方法。能够高校,准确的寻找高质量的证据来进行整合已得到和手工同样好的结果。

Results and discussion

后面的章节中主要用了人和水稻来证明EVM的好的效果

首先是找到1058个水稻中cDNA验证过的基因,利用EVM对三个从头预测软件进行整合(权重相等)。统计敏感性和阳性检测率(Sn,Sp)。

可以看出来尽管各个从头预测软件的效果不好,但是在weight相等的情况下,我们通过EVM整合,还是可以提升准确性的。

对预测的外显子分为四种情况:single,initial,terminal,internal等

可以很明显的知道几个从头预测的软件预测的交集是很少的一部分。

结论

Although we cannot

rely on shared exons to predict all genescorrectly, we can in

this circumstance trust those that areshared with greater

Confidence.

后面做了一个这样的实验。在利用三个从头预测软件进行预测,然后利用EVM(随机设计weight的情况下)进行整合。然后加入同源预测的信息,然后利用EVM整合(随机设计weight的情况下),然后加入pasa(转录组)信息进行整合。

如下图:0-10 次是只有从头预测的软件 11-20是加入了同源预测的软件。21-30是加入了转录组的结果。

可以得到的结论

加入准确性高的结果会提升整体EVM整合的准确性,并且不依赖于weight的影响。

举例:加入同源之后准确性比仅有从头提升了很多,weight只会使结果有波动,不会影响趋势。

Intuitive versus trained weights

从头<同源<genewise<pasa

例如:

从头:0.3

同源:1

Genewise:5

Pasa:10

当然EVM 还是支持自动训练参数的,

训练参数的公式:

大概的意思就是,他利用gSn和eSn构建了一个公式,然后利用weight随机20多次,选择出分数最好的那组数据,作为weight值。

不过:

训练和不训练(自己制定)相差不会超过3%。

算法

EVM对其他预测出来的基因结构进行分析,整合成为一个大的非冗余外显子集合。

对于同源和转录组的预测的结果,偏好的认为其大概的基因座位置是对的,但是基因结构不做要求,整合的时候之考虑interna。而对于从头预测的软件,其结构识别是很准确的,但是整体结构不一定对,因此会将从头预测的结果按照四种外显子类型划分,不利用整体的基因结构进行整合。

整合的方法如下:就是对一段区域内的所有外显子(根据制定的weight和长度,特征)进行打分,然后从头到尾利用动态规划算法找到一条分数最高的路径,这个路径就是最佳的基因结构。

相关文章

  • EVM:一个基因预测结果的整合软件

    EVM是一个自动的对真核基因结构进行注释的工具,他可以对已有的证据结合权重进行评估。 EVM和pasa结合,能够产...

  • EVM 对预测结果进行整合

    从头预测,同源注释和转录组整合都会得到一个预测结果,EVidenceModeler(EVM) 可以对上述结果进整合...

  • 使用EvidenceModel将基因注释结果合并

    前期可以用cat将几个软件的结果合并进一个文件,这里只用基因预测和转录本预测两个结果: 附件:evm下载包:链接:...

  • 使用hisat2+stringtie进行基因预测

    比对到转录本,预测基因 使用TransDecoder将结果整理成evm输入格式 第一步整理后:

  • 基因结构注释(4):整合预测结果

    参考链接 如何对基因组进行注释[https://www.jianshu.com/p/931e9821c45a] 从...

  • 基因预测软件

    基因预测软件--Prokka Prokka是一款快速对原核生物基因组进行注释的工具,可以在10分钟内完成对一个细菌...

  • 同源注释-Genewise

    在基因预测之前,先要mask基因组序列;同源注释本次选择用genewise软件 软件安装 1 . genblast...

  • 使用bioawk对fasta文件进行序列分析

    最近在做水稻基因组注释,对于注释结果进行整理过滤,还在探索中。 evm注释结果 将结果转化成蛋白文件: 提取长度大...

  • 基因预测软件ORFfinder

    ORFfinder是一个图形化的序列分析工具,分析并查找序列中的ORF区(open reading frame,开...

  • Augustus

    在基因组注释中,预测基因结构是最核心的一环,在众多的从头预测软件中,augustus应用较广。但是由于安装过程依赖...

网友评论

    本文标题:EVM:一个基因预测结果的整合软件

    本文链接:https://www.haomeiwen.com/subject/zympectx.html