写在前面
这两天有看到几个用户朋友在生信札记讨论群中讨论了基因结构图的绘制。看到其他用户一直推荐 GSDS,我便也没有作声,毕竟 GSDS 确实是很优秀的网页软件。而现实情况是,近期 GSDS 网站无法访问。这或许就是网页或者在线软件的一个麻烦事。与之相比,TBtools 几乎不可能宕机,只要你手上安装了,该更新就更新。QQ群有安装软件,github也有,甚至问你身边的朋友,他们也有。类似的,其实 MEME suite 似乎也宕机了。
针对这两个分析需求,TBtools 其实早已提供可能更为便利的解决方案。
TBtools 干不了这事?
这是一个有趣的事情。几年前,我在 TBtools 上推出基因结构图绘制的时候,主要注明的优势就是,啥也不用管,用上直接下载的全基因组注释 GFF3/GTF 文件,只要感兴趣的 ID,就可以绘制基因结构图。于是,似乎所有人都觉得 TBtools 确实便利,却只能基于基因结构注释文件来绘制基因结构。
于是,总是存在部分人,不知为何,就是手上有:
- CDS序列
- DNA序列
换句话说,他们希望基于序列,绘制基因结构图。这是一个有趣的事情,因为这明显是基于序列比对,预测基因结构。或者说得更贴近基因组数据分析,那么是基于序列比对直接进行基因结构注释。了解这块的人就应是清楚,这类操作,不可能完美,多多少说会有细节上的小问题,当然几乎不可能影响具体基因结构样式。
GSDS 提供了这个操作接口;而 TBtools 确实没有。
是的,没有,但是不代表做不到。很久很久以前,TBtools中有这么一个功能
这是一个有趣的功能,可以基于输入的mRNA或CDS序列集合 以及 DNA如基因组序列,直接生成一个GFF3文件。
那么一旦有了这个GFF3文件,那不就可以直接用TBtools做下一步基因结构可视化了吗?
TBtools 怎么干这事?
说千遍,不如做一遍。此处直接拿拟南芥的序列为例,做个演示。
输出结果发现,有一个ID是NoGood,直接无视,一般这种只是小边界问题,不影响基因结构情况。
于是二十秒不到,我们就得到一个优秀的GFF3文件。
TBtools 这事干得如何?
直接上图,首先看看预测出来结果文件的样子,
是的,你输入CDS,但是我只会给出EXON,因为...确实懒得。如果你自己感兴趣,那么就直接全部文本替换为CDS就好了。
随后,我们直接拿相同的输入,分别使用:
- 真实的拟南芥 GFF3 注释信息
- TBtools基于序列抓取或预测的 基因结构注释信息
可视化,如下,
可以注意到,除了UTR确实搞不出来(因为你输入的本身就是CDS,哪来的UTR)。只看CDS,大家一模一样.....
OK,我觉得写到这里就完全足够了。
如果你再机制一点:
- mRNA序列做一个,不修改 EXON 标识
- cds序列做一个,修改 EXON 标识为CDS
然后两个文件一合并...那不就?.....
跟原始的一模一样吗?
那么问题来了,没有基因组,没有基因结构注释,你真的能拿到那么多DNA全长吗?(UTR+Exon+Intron)
写在最后
啊,东西不写出来,感觉都没人知道了。
网友评论