不少朋友提了一些关于 GSAman 的建议,其中部分我们有采纳,主要原因是我自己其实基本没用 GSAman 实战过。这个与 TBtools 不同,因为 TBtools 我天天都用。想来想去也不合适。索性就花了一天时间,矫正了 20Mb 的一条染色体的基因结构注释。具体多少个基因我没统计。既定基因组是600Mb,那么就我一个人来干,差不多要干一个月。当然,我开了一下午组会,晚上也正好有点事情。所以或许一天可以做30Mb。至少也是需要三周时间。
前述更新的快捷键,加速了不少基因结构注释矫正操作,我想这是一个非常好的改进。在矫正这一条染色体的过程中,我也发现了不少东西,当然,也更加确信,不存在完美注释。尤其是电子注释,真的有很多无能为力。同一套算法,在不同的数据上,总是会遇到一些麻烦,因为存在一个「阈值」。简单分享几张图片。
最长阅读框有时并非真实读码框
对于同一个转录本,我们可以预测最长开放阅读框,ORF 作为其 CDS。
但是你会发现可变剪切的模式似乎都异常。
这个时候,你要强制指定翻译方向,于是一切都正常了。于是问题来了,最长开放阅读框是真实CDS?还是短的,符合剪切模式的。这时候,我选择后者。非常尴尬,这个基因逻辑上属于这个物种特有的基因,所以并无同源参考。
转录组覆盖度并非永远金标准
比对软件或者数据,并不绝对可靠。下图可以看到一个没有被电子注释出来的转录本。中间外显子的中间部分覆盖深度基迪,几乎没有覆盖,原因不明。但其实同源注释有很好的争取,我们简单做局部组装然后merge两个转录本,那么可以得到一个非常完美的注释。具体我倾向于认为这是一个正确的注释。
有些情况错综复杂
这些情况可能无从下手....
当然,还有很多很多情况。事实上,一天下来,我的体会就是,要最快矫正一个物种所有注释信息,那么最关键在于:
- 人多力量大,一人一条染色体,一周搞定一般没问题
- 矫正时,对于好矫正的矫正,不明确的直接用 Region Of Interest 标记好
- 注释处理完之后,再重新查看标记的 Region Of Interest
- 给注释打标签
最后这一点,我发现还是很有用。我们总是想做一个负责的人。既然是矫正过的注释,矫正好当然没问题,但是对于不少位点,要么没有同源注释,要么没有很好的 RNAseq 比对结果,逻辑上直接矫正不了。此时,最好的方式就是打标签。
于是增加了一个新的特性,给了一些默认的标签,方便大伙使用。
当然,这个是支持编辑的,可以随意新增标签。一旦标签新增进去,那么就自动成为一个选项,我觉得这个挺好。
今天,更新就这些。明天收稿费,大伙先准备好吧。
网友评论