ORF 预测是 TBtools 非常早的一个功能,估摸着应该是 2017年前后就写出来,然后释放。我看了下绘图引擎,还是用的JJplot2(这个引擎我已经有三四年没优化了)。当然,绘图是一个问题,功能特性或许是我更为关注。
常常,会有人对比 TBtools 和一些工具的预测效果。基于我几年前的测试,TBtools 的 ORF 预测和旧版本 NCBI 的 ORF Finder 功能表现一致。有好有坏,因为两者都是要求「全长读码框」,简单来说,比如是有 ATG 开头,然后以 TGA、TAG、TAA结束。最近开发 GSAman,也有不少朋友用了起来,于是会发现,事实上,存在不少基因,并非以 ATG 开头,同样,也不一定是以 TGA ... 结束。
当然,另外的情况是,比如克隆了 CDS,一代测序结果中,不定能直接测到全长CDS,可能会少一两个碱基。于是这个在 TBtools 原始版本的 Get Complete ORF 就无法得到良好结果。
表现如下,
因为终止密码子正好少了一个。正好有个师弟大半个月前跟我提到这个事情。我今晚是真不想干活,于是干脆想了一个逻辑,更快更好的完成这个事情,得到如下,
增加了一个「Partial CDS」,也及时支持不完整的 CDS,比如 5 端或者 3端,或者其实也支持 非ATG 开始或 TGA等结尾的 CDS,效果如下
可以看到右侧预测出来了一个最长CDS
结果会提示,3端不全。但事实上,全不全,大伙得自己确定,到底是不全,还是其实就是非经典模式?
网友评论