美文网首页三代测序
基因结构注释人工矫正 - 实战过程记录

基因结构注释人工矫正 - 实战过程记录

作者: 生信石头 | 来源:发表于2022-12-13 20:32 被阅读0次

常见的电子注释错误问题挺多,比如UTR长度不对,缺少外显子内含子,边界有问题。没注释出来等等。这些就不做记录。此处主要记录一些有趣的问题

转录本距离过近,导致过度拼接

电子注释将两个距离较近,链性相同的位点注释成 1 个。一眼下去,可能会认为没问题。



实际问题有二:

  1. 如果两个转录本是串联,那么其中有两个外显子边界有问题
  2. 同源注释信息,都显示右边就是一个完整转录本,左边逻辑上是另一个

可以复制CDS看看比对结果。



有一些只在少数样品中表达


表达量并不低

contig11:3,746,889-3,760,635

转录本两端覆盖率较低,导致无法预测正确ORF

有一些位点直接没表达,或许其实是完全存在

直接基于文本预测



更比如


有时候一些位点,让我们很绝望

softberry 有次数限制

有些时候,必须要同源注释参考

水稻和拟南芥的注释不一定准确?


查看同源注释在其他物种上



没问题。那么就只能是当前物种的问题 contig12:449,363-458,339


同源注释比对可能会出现串联重复错误

可变剪切直接改变了 CDS


恩,没想到原注释有问题,侧面说明 最长 CDS 不一定是真正CDS

一个转录本?还是两个转录本?

View as Pair,是一个?问题来了,为什么会缺了一个外显子,也没有任何可变剪切的信号。答案必然是中间有一些reads完全无法匹配上




无解,怀疑就是回帖软件太辣鸡


类似的,还有很多。这类基本是回帖软件出了问题。当然,其实具体还是需要通过转录组数据查看。不过我暂时没时间折腾。


位点距离太近,两个拼成一个了

如果不是正反链的基因,那么会被直接拼成一个


典型串联重复

当外显子过短,内含子过长,注释会很差


类似的,裸子植物注释应该很难

二代数据无从判断是一个转录本还是三个

典型串联成重复

懒得拖拽,直接Augustus Predict一个

相邻同方向基因被注释成一个

水稻的注释确实有很多问题

肉眼常常是无法超过程序

串联重复很难处理

相邻基因被注释成 1 个了

类似串联重复被注释成一个

串联重复很难处理

缩小窗口,分区段 augustus (或主要针对已知蛋白同源区间)



有一些基因藏得很深

过拼接了

几个不错的工具

主要用于自动处理 GFF3 和 GTF ,或许还是有用的

http://genometools.org/index.html
https://agat.readthedocs.io/en/latest/how_to_cite.html

相关文章

网友评论

    本文标题:基因结构注释人工矫正 - 实战过程记录

    本文链接:https://www.haomeiwen.com/subject/rgtcqdtx.html