美文网首页
「TBtools」提取的 CDS 序列 ID 很复杂,怎么办?

「TBtools」提取的 CDS 序列 ID 很复杂,怎么办?

作者: 生信石头 | 来源:发表于2022-02-23 10:04 被阅读0次

    写在前面

    做生信数据分析时,最常遇到的问题,仍然是文本处理。主要原因简单,我们永远不知道上一个人会给我们什么样的东西,而我们要的又常常不是他们给的。基于 GFF 提取 CDS全长,相关讨论很多,没想到今天还会遇其他问题。

    「TBtools」提取的 CDS 序列 ID 很奇怪

    有用户使用 TBtools 提取物种的 CDS 序列,得到的文件如下



    简单来说,文件前面多了一堆标识符。这类文本常常会影响下游数据分析。当然,主要出现在 NCBI 下载的 GFF 中。我第一反应是用户是否选错标签,但看到 GFF3 文件后。



    还是文件问题,似乎无解。用户提议,是否可以使用 locus tag。
    但这个不行,因为 locus tag 本身是用来组织转录本为基因的,不是组织CDS为转录本全长CDS的。所以只能 Parent 或 transcript_id。我的第一反应是使用 GXF ID Rename。只是这个准备文件还是麻烦

    几乎所有 ID 要去除的,其实是完全相同的 TAG。我们当然可以使用 GXF Pos & Info. Extract 得到信息文件,随后整理成两列。但这个似乎还是麻烦。最好的办法是直接文本替换。
    于是我想起了 「Batch String Replace」,用户可以简单通过下述操作,完成修改



    注意,制表符分隔。
    rna-gnl\|WGS:JAEACU\|(\w+)  $1
    

    可以看到,已经调整好了。直接使用即可。

    写在后面

    「Batch String Replace」,事实上,写这个功能,我就没想着用它,只是后面似乎又很经常被使用。而我常常非常看到的功能,用的人反而不错,或许这就是:
    有心栽桃桃不成,无心栽柳柳成荫。

    相关文章

      网友评论

          本文标题:「TBtools」提取的 CDS 序列 ID 很复杂,怎么办?

          本文链接:https://www.haomeiwen.com/subject/bocolrtx.html