美文网首页
TCellSI:巧用housekeeping genes矫正样本

TCellSI:巧用housekeeping genes矫正样本

作者: 生信云笔记 | 来源:发表于2024-09-20 16:10 被阅读0次

      TCellSI:一款借助Mann-Whitney U统计量,通过特定marker基因集和背景基因,对T细胞状态进行评估打分的软件。该软件能够准确评估T细胞的八种不同状态分别为:静止、调节、增殖、辅助、细胞毒性、前体耗竭、终末耗竭和衰老。通过这些评分,研究人员可以将T细胞分成不同的亚群以便深入研究其在免疫环境中承担的功能和扮演的角色。

      无疑,TCellSI是一个不可多得的工具。可是,今天咱们不关注软件本身的使用,而是通过其原理来看一些实现过程中比较通用的地方。TCellSI的训练和验证过程中使用了来自20个数据集的379个T细胞系、34730个单细胞、4477个伪bulk样本、33种肿瘤类型的10535的肿瘤样本、20种组织类型的7862个正常样本、674个免疫治疗样本,以及884个病毒感染的非肿瘤患者的外周血样本。咱们都知道,如果不同数据集之间存在批次效应,为了获取到真实的生物学意义,去除批次效应的需求就显得尤为突出。

      故而,咱们可以看到TCellSI软件的实现过程中有一个样本间基因表达值矫正的过程,从而使不同数据集的样本具有可比性,如下原图所示。文章没有使用现有的单细胞数据批次矫正的方法,而是利用比较经典的思路,借助Housekeeping gene的表达值来矫正不同数据集的基因表达值。

      文章使用3686个housekeeping gene,利用下面的计算公式矫正并更新数据集里的基因表达值:

      可以看到,计算并不复杂,用所有数据集的平均HK与特定数据集的HK之间的比值作为该数据集的矫正系数,然后每个基因乘以该系数来得到矫正的表达值。显然,这是一个不错的方法,简洁且有效,当然也可以将其引申到其他数据,作为批次矫正的候选。那么,现在有了计算公式,想用这个方法还需要一个关键条件,如何选取管家基因?就像文章中使用的3686个housekeeping gene,这些才是矫正表达值的关键。

    相关文章

      网友评论

          本文标题:TCellSI:巧用housekeeping genes矫正样本

          本文链接:https://www.haomeiwen.com/subject/xdvaljtx.html