写在前面
早前,一时兴起开发了 GSAman,目前估摸着也有用户三千。GSAman主要用于基因结构注释人工矫正,逻辑上目前至少国内做基因组上基因结构人工注释矫正的话,应该会有相当部分会应 GSAman。基因结构人工注释矫正,这个工作,对于多数人来说,可能只关心少数基因,那么就基本矫正一下完事。但是对于一些朋友来说,则可能是一个大事情,如果要对整个物种基因组进行基因结构注释矫正:
- 长期研究某个物种或者材料,一套铂金级注释极为重要,比如水稻,目前就一套都木有,拟南芥可以认为有,但是拟南芥目前也在做最新基因组的人工矫正注释;
- 提供高质量参考基因组的同时提供一套高质量的注释,否则,基因组质量再高,做功能研究的大概率也不会采用;
为此,多人协助或者一个课题组许多人来协作完成一个全基因组范围的基因结构注释就成为需求。对于 GSAman 现有功能来说,用户希望达成这一协作效果,可以有两个操作:
- 每个人指定某个区间,矫正指定区间,每个人都会得到一个全基因组的结构注释信息,然后逐个使用 TBtools 的 GXF Patch 到原来的基因结构注释;
- 直接分割原始的基因组基因结构注释,每个人针对得到的基因结构注释文件进行矫正,矫正完了就“Cat”合并起来。
早前我以为更多人会使用第一种方法(现在看来这个方式有点问题),但后来发现更多人使用第二种方法。事实上,第二种方法确实也更为合理。不过,目前来说,实现第二种方法中的 “cat” 合并,需要考虑几个问题:
- 误操作,某个文件内部信息存在冲突或者偏差,需要检测和修复;
- ID冲突,比如第一个人新增了一个转录本,ID 为 GSAman000001;第二个人也新增这样一个转录本,ID完全相同。这种情况对于GFF3、GTF文件格式来说,是不合理的。需要解决;
- 区间重叠,尽管我们分了不同区域,但是存在可能有一些人会不小心修复过了,于是出现区间重叠,需要解决区间冲突。
为此,估计我花了一天多时间,写了“GXFcat”,可以解决上述问题。
GXFcat 的使用
相关功能直接在 TBtools 主程序,版本最低 2.031
打开功能后,用户需要输入的就是3个信息
随后点击 Start,等到即可,如无报错,一切正常
当然有可能出现这类警告信息,则可以自行查看文件原因
多半是某个基因对应的转录本方向不统一,需要在最后输出的文件后进一步确认(具体我看了下,基本全是难以矫正和确定方向)
打开冲突文件,可以看到一处坐标重叠,对于这些信息,参考 DupSource 标签,保留认为合适的来源文件信息,其他删除后,直接黏贴到 merged.gff3 内部,即可完成最终合并。
注意,如果对文件顺序有要求,也完全可以合并后继续在用一下 GXF Fix。
写在最后
时间有限,希望新的功能对更多人矫正基因结构注释,做铂金级基因组参考注释有帮助。
网友评论