写在前面
组织或器官,特异或偏好表达基因鉴定,是一个非常非常久远就受到大多数人关注的事情。鉴定组织特异性或者偏好表达基因,可以获取其启动子,用于在特定时间特定位置表达特定基因。
针对这类基因的挖掘和计算方法有很多,但最为常用的即为 TAU Index。简单来说,TAU Index 计算,对于每一个基因,基于他在不同组织的表达量,计算出一个 0~1 的数字。如果是 1 ,那么这个基因就是在某个组织里面特异性表达。如果是接近 1 ,比如 0.9,那么就是组织偏好性表达。如果是接近 0 ,那么就是倾向于组成型表达。当然,我们可以想象得到,逻辑上大部分基因应该是偏向于组成型表达。具体大伙可以自己统计看看。
回到主题,尽管TAU计算逻辑简单,几年前我即想写一个简单工具,方便大伙使用,但一直也没时间。
正好近期合作项目课题组提及相关工作,干脆就简单写写。前后也就大半个小时.... 简单。
TAU Calc
整体功能界面非常简单,用户只需要输入一个基因表达矩阵,设置一个输出文件,或者直接显示到界面上。

大体使用如下(注,为方便演示,我直接用文本输入,一般建议文件输入,毕竟文件可能比较大)

我们可以取前 TAU 最高的前 10 个 和最低的后 10 个看看....

当然,其中数字较小,TAU=1,的基因挺多的,可以手动筛选,选择表达量高的,具体不做演示。
常见问题 - 重复如何处理?
Emmm,其实计算 TAU Index 不是很麻烦。最麻烦的还是,如果样品有重复,如何处理?

比如上述表达量表格,每一个组织有三次重复。那么,我们需要合并三个值为一个值。此时可以使用 TBtools 的
Table Column Collaspe

得到这个表格,即可用于上述计算。
当然,Mean 是否是最好,或者 Max 或者 Min 更好?这个是一个问题,没有答案。
写在最后
做什么事情,不重要,
在哪里做事情,不重要,
最重要的是,静下来心,把事情做好。
外界的评价不重要,
遵从你的内心。
有些事情,不需要急于评判。
时间会给出答案。

网友评论