前述,IGV-GSAman 的功能已经更新七七八八,基本可以满足绝大多数情况下的基因结构注释矫正工作需要。不过,我最近带娃比较多,这些时候做不了事情,也只能想一些旁门左道。大体形成了这段时间,GSAman 的两三实用新特性。
基于BLAT的快速基因结构注释
当我们在做基因结构注释矫正时,常常会同时查看 Pacbio 或者 Nanopore 的全长转录本测序数据。如此,针对一些注释有问题的稳点,当然,我们可以直接通过修改外显子坐标,增删外显子等操作,几步完成。
但其实更便捷的做法,莫过于直接拿当前reads序列,然后直接注释。于是,新增的 「Re-construct mRNA via BLAT」可以实现。操作步骤简单:
-
右键 nanopore 的某个reads
-
Copy Read Sequence
-
右键 GSAman
-
Reconstruct mRNA via BLAT
-
直接获得注释
此处就不截图了。
事实上,这个 via BLAT 还有更大的用处。比如: -
你可以选择 tblastn 的模式
-
还可以选择 prot 模式
后者支持,比如你大体知道这个区间编码一个MYB基因,那么你可以拿比如拟南芥的MYB蛋白序列,直接用于反向重构当前物种当前位点的 MYB 注释。当然,最好是接下来就基于转录组数据调整下边界。
直接对当前窗口的双端测序读段进行从头组装
二代测序的主要优点是够深,主要缺点是太短。不少基因,二代测序可以测到,但三代测序没有检测到。这类情况下,基于上述的BLAT快速重构就不再可能。此时,最好的办法是直接 de novo 当前区域。于是这样了一波,实现了一个简单版本。用起来,我觉得还不错
比如图中显示位点,直接de novo组装当前区间,可以获得相对准确的基因结构。当然细节处还需要调整。这些主要还有可变剪切的问题。
写在最后
整体就这么多....
当然,我大体也想到一个逻辑。逻辑直接基于某个三代 Read Alignment 进行转录本重构,似乎也不是不行...
网友评论