美文网首页基因家族等
简洁 | 优雅地准备 比较基因组分析 文件

简洁 | 优雅地准备 比较基因组分析 文件

作者: 生信石头 | 来源:发表于2020-10-02 16:09 被阅读0次

    写在前面

    比较基因组分析已然是常见生信数据分析。开展这类分析时,往往会遇到各式各样的问题,尤其是,输入文件内容和格式的问题,比如:

    1. 只有基因组序列文件和基因结构注释信息
    2. CDS或者蛋白序列 ID 与基因结构注释信息文件中基因 ID 不匹配
    3. CDS或蛋白序列文件中包含可变剪切体
    4. 不同物种 ID 命名系统冲突
    5. ...

    解决这一系列问题,最好的办法是针对每一个物种,做相应的文件准备。在 TBtools 中,已有系列工具实现,如 One Step MCScanX 等。为了后续的一些可能操作,使 TBtools 功能串联使用更为顺畅,刚才花了点时间,抽取这部分功能。

    Genome Analysis Init

    可以看出来,输入文件有二:

    1. 基因组序列文件
    2. 基因结构注释信息文件

    此外,可选项 Prefix ,可用于增加前缀,解决不同物种 ID 命名冲突的问题
    最后是... 一个输出目录(注意:是目录,不是文件)

    使用方法

    打开 TBtools 并找到该功能



    打开 Genome Analysis Init,随后设置输入输出文件


    输出文件


    其中,无论是CDS 还是 蛋白序列,都已经取了代表性转录本对应的序列,可以直接用于下游分析

    写在后面

    可以说,这是一个非常简单的功能。在这个功能推出之前,可以用 TBtools 分几步走:

    1. 对 GXF 文件进行前缀增加
    2. 对基因组序列ID进行前缀增加
    3. 提取GXF代表性转录本的CDS
    4. 翻译 CDS 为 蛋白

    然而,如果可以一步搞定,为什么还要做四步呢?

    相关文章

      网友评论

        本文标题:简洁 | 优雅地准备 比较基因组分析 文件

        本文链接:https://www.haomeiwen.com/subject/xhsbuktx.html