美文网首页三代测序
基因结构注释人工矫正 - 实战过程记录

基因结构注释人工矫正 - 实战过程记录

作者: 生信石头 | 来源:发表于2022-12-13 20:32 被阅读0次

    常见的电子注释错误问题挺多,比如UTR长度不对,缺少外显子内含子,边界有问题。没注释出来等等。这些就不做记录。此处主要记录一些有趣的问题

    转录本距离过近,导致过度拼接

    电子注释将两个距离较近,链性相同的位点注释成 1 个。一眼下去,可能会认为没问题。



    实际问题有二:

    1. 如果两个转录本是串联,那么其中有两个外显子边界有问题
    2. 同源注释信息,都显示右边就是一个完整转录本,左边逻辑上是另一个

    可以复制CDS看看比对结果。



    有一些只在少数样品中表达


    表达量并不低

    contig11:3,746,889-3,760,635
    

    转录本两端覆盖率较低,导致无法预测正确ORF

    有一些位点直接没表达,或许其实是完全存在

    直接基于文本预测



    更比如


    有时候一些位点,让我们很绝望

    softberry 有次数限制

    有些时候,必须要同源注释参考

    水稻和拟南芥的注释不一定准确?


    查看同源注释在其他物种上



    没问题。那么就只能是当前物种的问题 contig12:449,363-458,339


    同源注释比对可能会出现串联重复错误

    可变剪切直接改变了 CDS


    恩,没想到原注释有问题,侧面说明 最长 CDS 不一定是真正CDS

    一个转录本?还是两个转录本?

    View as Pair,是一个?问题来了,为什么会缺了一个外显子,也没有任何可变剪切的信号。答案必然是中间有一些reads完全无法匹配上




    无解,怀疑就是回帖软件太辣鸡


    类似的,还有很多。这类基本是回帖软件出了问题。当然,其实具体还是需要通过转录组数据查看。不过我暂时没时间折腾。


    位点距离太近,两个拼成一个了

    如果不是正反链的基因,那么会被直接拼成一个


    典型串联重复

    当外显子过短,内含子过长,注释会很差


    类似的,裸子植物注释应该很难

    二代数据无从判断是一个转录本还是三个

    典型串联成重复

    懒得拖拽,直接Augustus Predict一个

    相邻同方向基因被注释成一个

    水稻的注释确实有很多问题

    肉眼常常是无法超过程序

    串联重复很难处理

    相邻基因被注释成 1 个了

    类似串联重复被注释成一个

    串联重复很难处理

    缩小窗口,分区段 augustus (或主要针对已知蛋白同源区间)



    有一些基因藏得很深

    过拼接了

    几个不错的工具

    主要用于自动处理 GFF3 和 GTF ,或许还是有用的

    http://genometools.org/index.html
    https://agat.readthedocs.io/en/latest/how_to_cite.html
    

    相关文章

      网友评论

        本文标题:基因结构注释人工矫正 - 实战过程记录

        本文链接:https://www.haomeiwen.com/subject/rgtcqdtx.html