美文网首页三代测序技术
汇总 | 转录本表达矩阵 到 基因表达矩阵

汇总 | 转录本表达矩阵 到 基因表达矩阵

作者: 生信石头 | 来源:发表于2020-09-06 14:10 被阅读0次

    写在前面

    前天,我写了一个 TBtools 插件,意在让所有人都能自主分析转录组测序数据,进而获得 基因表达量矩阵(TPM) 和 基因读段计数矩阵(Count)。已经提过了,TPM 就直接可用,而 Count 矩阵本身可以在网络上找到各类差异表达基因分析平台,上传矩阵就可以做各种差异表达分析。
    不过很多人可能还是没意识到,前述的 Kallisto 插件或者流程出来的结果,其实是 转录本水平的表达矩阵 而不是 基因表达矩阵。基于 Kallisto 的算法实现,我们不应该只分析基因的某个或者某几个代表转录本,因为这样可能会影响 Kmer Counts 的正确计算。
    而事实上,不少人关注的还是基因水平,而不是转录本水平(取决于实验设计,精度,深度云云)。于是 ,我有写了一个小功能,可以用于汇总 转录本表达矩阵 为 基因表达矩阵 。

    Trans Value Sum

    想不到一个合适的名字,按照我的习惯,那么所以写一个。



    从界面来看,输入文件有二:

    1. 转录本表达矩阵
    2. 转录本归属基因的信息表,格式为“转录本ID 基因ID”,注意,以制表符分隔。

    输入输出均支持 文件 或 文本直接输入。为方便演示,下述直接使用文本输入输出模式。示例如下



    可以看到,Tran1 和 Tran2 归属于 Gene1 ,于是值被加和,作为Gene1 的表达量。

    一切看起来如此顺畅。那么问题可能就出现了。
    转录本表达矩阵,我们当然可以轻松获得,但是转录本ID 和 基因ID 的对应关系,怎么搞?

    GXF Position Extract

    很久很久以前,我已经写过这个功能了。这里使用拟南芥的 GFF3 文件为示例。



    只需要输入一个GFF3或者GTF文件,设置两个输出文件路径



    点击 Start 可得

    于是,在Excel里面或者使用 TBtools 表格工具就可以快速获得对应表格。

    写在最后

    轻轻松松,半小时写工具,半小时写推文...
    今天也算周末,祝大伙科研顺利。
    另,最近的推文阅读量似乎明显下载,一直保持在1000+。。。
    我还是直白一点吧,该在看的就点再看,该转发的就转发。写着写着没多少人看了,我就不写了。

    相关文章

      网友评论

        本文标题:汇总 | 转录本表达矩阵 到 基因表达矩阵

        本文链接:https://www.haomeiwen.com/subject/eewqektx.html