简洁 | 优雅地准备比较基因组分析文件

作者: 生信石头 | 来源:发表于2020-10-02 16:09 被阅读0次

写在前面

比较基因组分析已然是常见生信数据分析。开展这类分析时，往往会遇到各式各样的问题，尤其是，输入文件内容和格式的问题，比如：

只有基因组序列文件和基因结构注释信息
CDS或者蛋白序列 ID 与基因结构注释信息文件中基因 ID 不匹配
CDS或蛋白序列文件中包含可变剪切体
不同物种 ID 命名系统冲突
...

解决这一系列问题，最好的办法是针对每一个物种，做相应的文件准备。在 TBtools 中，已有系列工具实现，如 One Step MCScanX 等。为了后续的一些可能操作，使 TBtools 功能串联使用更为顺畅，刚才花了点时间，抽取这部分功能。

Genome Analysis Init

可以看出来，输入文件有二：

基因组序列文件
基因结构注释信息文件

此外，可选项 Prefix ，可用于增加前缀，解决不同物种 ID 命名冲突的问题
最后是... 一个输出目录（注意：是目录，不是文件）

使用方法

打开 TBtools 并找到该功能

打开 Genome Analysis Init，随后设置输入输出文件

输出文件

其中，无论是CDS 还是蛋白序列，都已经取了代表性转录本对应的序列，可以直接用于下游分析

写在后面

可以说，这是一个非常简单的功能。在这个功能推出之前，可以用 TBtools 分几步走：

对 GXF 文件进行前缀增加
对基因组序列ID进行前缀增加
提取GXF代表性转录本的CDS
翻译 CDS 为蛋白

然而，如果可以一步搞定，为什么还要做四步呢？

网友评论

基因家族等

本文标题：简洁 | 优雅地准备比较基因组分析文件

本文链接：https://www.haomeiwen.com/subject/xhsbuktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

简洁 | 优雅地准备比较基因组分析文件

写在前面

Genome Analysis Init

使用方法

输出文件

写在后面

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

基因家族等

简洁 | 优雅地准备 比较基因组分析 文件

写在前面

Genome Analysis Init

使用方法

输出文件

写在后面

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

基因家族等

简洁 | 优雅地准备比较基因组分析文件