EVM是一个自动的对真核基因结构进行注释的工具,他可以对已有的证据结合权重进行评估。
EVM和pasa结合,能够产生一个综合的,可靠的含有编码去和可变剪切的基因结构。
我们在人和水稻两个基因组上进行了验证,证明EVM可以达到类似手工注释的效果。
桑格科研出品,欢迎大家关注桑格助手背景
1、单一的软件搞不定。
2、ab initio gene prediction software 对于单个外显子和编码基因相关的区域很准确,但是对整体的基因结构预测很难找对整体的位置。:genscan,GlimmerHMM,Fgenesh,GeneMark.Hmm.
3、整体基因结果的修正和预测往往借助同源和转录本方法。
软件包括:AAT,exonerate,PMAP(derived from GMAP)对于真核基因组基因结构比对并有统计学模型支持的软件genewise(Ensemble annotation pipeline)。缺点在于只能解决一部分基因的整体结构问题。
4 、更综合的真核基因结果预测会同时考虑物种的内在特性(从头)和外在的一些信息(同源,转录组)。TWINSCAN,N-SCAN_EST,ExonHunter,Augustus,Genie。这样对准确性有很大的提升。
5、 早期打的基因组项目,为了保证高质量,会严重的依赖手动对结构的注释.软件包括:Apollo ,Artemis,质量高,成本高。
6、 全长CDNA(FL-cDNA)(mRNA)减少了手工注释的负担。主要提供了一个软件PASA(Program toAssemble Spliced Alignments)可以根据EST 和FL-cDNA或者加上 已有的基因结构的信息进行注释。
7 、EVM,一个对现有软件整合的方法。能够高校,准确的寻找高质量的证据来进行整合已得到和手工同样好的结果。
Results and discussion
后面的章节中主要用了人和水稻来证明EVM的好的效果
首先是找到1058个水稻中cDNA验证过的基因,利用EVM对三个从头预测软件进行整合(权重相等)。统计敏感性和阳性检测率(Sn,Sp)。
可以看出来尽管各个从头预测软件的效果不好,但是在weight相等的情况下,我们通过EVM整合,还是可以提升准确性的。
对预测的外显子分为四种情况:single,initial,terminal,internal等
可以很明显的知道几个从头预测的软件预测的交集是很少的一部分。
结论
Although we cannot
rely on shared exons to predict all genescorrectly, we can in
this circumstance trust those that areshared with greater
Confidence.
后面做了一个这样的实验。在利用三个从头预测软件进行预测,然后利用EVM(随机设计weight的情况下)进行整合。然后加入同源预测的信息,然后利用EVM整合(随机设计weight的情况下),然后加入pasa(转录组)信息进行整合。
如下图:0-10 次是只有从头预测的软件 11-20是加入了同源预测的软件。21-30是加入了转录组的结果。
可以得到的结论
加入准确性高的结果会提升整体EVM整合的准确性,并且不依赖于weight的影响。
举例:加入同源之后准确性比仅有从头提升了很多,weight只会使结果有波动,不会影响趋势。
Intuitive versus trained weights
从头<同源<genewise<pasa
例如:
从头:0.3
同源:1
Genewise:5
Pasa:10
当然EVM 还是支持自动训练参数的,
训练参数的公式:
大概的意思就是,他利用gSn和eSn构建了一个公式,然后利用weight随机20多次,选择出分数最好的那组数据,作为weight值。
不过:
训练和不训练(自己制定)相差不会超过3%。
算法
EVM对其他预测出来的基因结构进行分析,整合成为一个大的非冗余外显子集合。
对于同源和转录组的预测的结果,偏好的认为其大概的基因座位置是对的,但是基因结构不做要求,整合的时候之考虑interna。而对于从头预测的软件,其结构识别是很准确的,但是整体结构不一定对,因此会将从头预测的结果按照四种外显子类型划分,不利用整体的基因结构进行整合。
整合的方法如下:就是对一段区域内的所有外显子(根据制定的weight和长度,特征)进行打分,然后从头到尾利用动态规划算法找到一条分数最高的路径,这个路径就是最佳的基因结构。
网友评论