常见的电子注释错误问题挺多,比如UTR长度不对,缺少外显子内含子,边界有问题。没注释出来等等。这些就不做记录。此处主要记录一些有趣的问题
转录本距离过近,导致过度拼接
电子注释将两个距离较近,链性相同的位点注释成 1 个。一眼下去,可能会认为没问题。
实际问题有二:
- 如果两个转录本是串联,那么其中有两个外显子边界有问题
- 同源注释信息,都显示右边就是一个完整转录本,左边逻辑上是另一个
可以复制CDS看看比对结果。
有一些只在少数样品中表达
表达量并不低
contig11:3,746,889-3,760,635
转录本两端覆盖率较低,导致无法预测正确ORF
有一些位点直接没表达,或许其实是完全存在
直接基于文本预测
更比如
有时候一些位点,让我们很绝望
softberry 有次数限制
有些时候,必须要同源注释参考
水稻和拟南芥的注释不一定准确?
查看同源注释在其他物种上
没问题。那么就只能是当前物种的问题 contig12:449,363-458,339
同源注释比对可能会出现串联重复错误
可变剪切直接改变了 CDS
恩,没想到原注释有问题,侧面说明 最长 CDS 不一定是真正CDS
一个转录本?还是两个转录本?
View as Pair,是一个?问题来了,为什么会缺了一个外显子,也没有任何可变剪切的信号。答案必然是中间有一些reads完全无法匹配上
无解,怀疑就是回帖软件太辣鸡
类似的,还有很多。这类基本是回帖软件出了问题。当然,其实具体还是需要通过转录组数据查看。不过我暂时没时间折腾。
位点距离太近,两个拼成一个了
如果不是正反链的基因,那么会被直接拼成一个
典型串联重复
当外显子过短,内含子过长,注释会很差
类似的,裸子植物注释应该很难
二代数据无从判断是一个转录本还是三个
典型串联成重复
懒得拖拽,直接Augustus Predict一个
相邻同方向基因被注释成一个
水稻的注释确实有很多问题
肉眼常常是无法超过程序
串联重复很难处理
相邻基因被注释成 1 个了
类似串联重复被注释成一个
串联重复很难处理
缩小窗口,分区段 augustus (或主要针对已知蛋白同源区间)
有一些基因藏得很深
过拼接了
几个不错的工具
主要用于自动处理 GFF3 和 GTF ,或许还是有用的
http://genometools.org/index.html
https://agat.readthedocs.io/en/latest/how_to_cite.html
网友评论