「TBtools」提取的 CDS 序列 ID 很复杂，怎么办？

作者: 生信石头 | 来源:发表于2022-02-23 10:04 被阅读0次

「TBtools」提取的 CDS 序列 ID 很复杂，怎么办？
GFF文件和基因组文件提取mRNA,cds,protein序列
bedtools getfasta提取基因序列实战
「TBtools」用户输入文件二三小事
一文解决Windows系统上的R、Rtools、Rstudio的
2022-04-21fa文件和gff文件提取cds序列并翻译成蛋
基因家族分析七(筛选串联重复基因)
用ID提取序列
如何利用DNASTAR进行序列比对
Uniport ID Blast 转换ID

写在前面

做生信数据分析时，最常遇到的问题，仍然是文本处理。主要原因简单，我们永远不知道上一个人会给我们什么样的东西，而我们要的又常常不是他们给的。基于 GFF 提取 CDS全长，相关讨论很多，没想到今天还会遇其他问题。

「TBtools」提取的 CDS 序列 ID 很奇怪

有用户使用 TBtools 提取物种的 CDS 序列，得到的文件如下

简单来说，文件前面多了一堆标识符。这类文本常常会影响下游数据分析。当然，主要出现在 NCBI 下载的 GFF 中。我第一反应是用户是否选错标签，但看到 GFF3 文件后。

还是文件问题，似乎无解。用户提议，是否可以使用 locus tag。
但这个不行，因为 locus tag 本身是用来组织转录本为基因的，不是组织CDS为转录本全长CDS的。所以只能 Parent 或 transcript_id。我的第一反应是使用 GXF ID Rename。只是这个准备文件还是麻烦