前言
Immugent最近读到了一篇有关细胞通讯分析的新算法文章:Comparative analysis of cell-cell communication at single-cell resolution,发表在大名鼎鼎的NBT杂志上。文章开发了一种细胞通讯分析的新算法--Scriabin,并且在算法介绍部分明确表示,以往细胞通讯算法都不是真正意义上的单个细胞水平的分析,而是基于一类细胞或者一群细胞来展开。这么一说,然后细细想来,确实是这么一回事。
细胞通讯分析是单细胞数据中常用的分析手段,目前已经开发出了一系列算法:Cellchat,CellPhoneDB以及NicheNet等。它们均是从不同角度,或者不同数据库中提取出的受体/配体信息进行细胞通讯分析。今天介绍的这款新型细胞通讯分析软件Scriabin,真正的是对每一个细胞进行通讯分析。虽然这种改进听着是非常好,但是万事万物都有其两面性,这样也意味着要分析更多的样本,从而对计算资源提出了更高要求。不过硬件上的限制终究都可以得到解决,而在更精细的水平上进行分析会让我们更加接近科学问题的本质。因此,Scriabin在细胞通讯分析这块的改进是具有跨时代意义的。
在本期推文中,Immugent将会通过原文对Scriabin的功能框架进行大致介绍,后面会根据需要专门更新一期代码实操的推文。
主要内容
为了开发出一种用于从scRNA-seq数据中进行全面分析细胞通讯信号(cell–cell communication,CCC)的工具,Scriabin根据数据集大小和分析目标实现了三个独立的工作模式:(1)细胞-细胞交互矩阵(CCIM)工作流,最适合较小的数据集,分析数据集中每个细胞-细胞对的通信;(2)为大规模对比分析而设计的总结交互图工作流程,识别了样本之间具有不同通讯的细胞-细胞对;(3)适用于发现任何数据集大小的交互式工作流程,查找共表达配体-受体对的模块。在Scriabin的分析流程中,CCC的基本单位被看作是一个表达配体的发送细胞Ni,这些配体被它们的同源受体接收,这些受体由接收细胞Nj表达。
image.png文章第一幅图是Scriabin的搭建流程图,我们可以看出Scriabin通过计算数据集中每对细胞对每个配体-受体对的表达取几何平均值,进而在CCIM中的M是将这些信息进行编码后的结果。Scriabin目前支持使用15种不同的蛋白质-蛋白质相互作用数据库来定义潜在的配体-受体相互作用,默认使用OmniPath数据库,因为该数据库包含对每种潜在相互作用的基因类别、机制和文献支持的强大注释。由于配体-受体相互作用是定向的,Scriabin将每个细胞分别视为“发送者”(配体表达)和“接收者”(受体表达),从而保持了CCC网络的定向性质。其中M可以类似于基因表达矩阵,用于降维、聚类和差异分析。
image.png话都这样说了,实际应用的效果如何呢?随后,作者就通过不同的单细胞数据对Scriabin的性能进行了测试。首先,作者使用了一项来自鳞状细胞癌的单细胞测序数据,作者发现肿瘤内T细胞和正常皮肤中的T细胞之间存在高度的全转录组表型重叠性。随后经过进一步分析,作者发现与未耗竭的T细胞相比,耗竭的T细胞主要通过耗竭相关标记物CTLA4和TIGIT,并且主要与CD1C+ DC进行细胞通讯;它们丢失了涉及促炎趋化因子(如CCL4和CCL5)的通信途径,这说明了传统的细胞通讯分析算法可能忽略了细胞通讯的异质性。
image.png接下来,作者尝试使用Scriabin的交互程序去发现新的细胞通讯网络。为了说明这一过程的可扩展性,作者选择分析发育中的胎儿肠的大型单细胞图谱,该图谱是由来自四个解剖位置的76,592个细胞组成。Scriabin在所有解剖位置发现了75个显著相关的相互作用程序。随后对这些相互作用程序中配体和受体表达的所有单细胞进行评分,揭示了许多程序的强细胞类型特异性表达模式以及发送者或受体潜能的细胞内微妙的类型差异,突出了维持单细胞分辨率的重要性。
对于常规的多组间功能分析是比较简单的,因为没有时间的连续性,而在有些情况下需要对多个连续事件进行分析才能找出规律。如人体感染新冠病毒后在不同时间点的免疫反应,而Scriabin可以将多个连续时间点拼接在一起,从而识别出在时间和机制上处于下游的细胞通讯网络。
image.png为了说明新冠感染人体的这一过程,作者分析了已发表的奇观呼吸道(ALI)中,人支气管上皮细胞(HBECs)在感染严重急性呼吸综合征冠状病毒2 (SARS-CoV-2)的数据集,该数据集每三天采一次样品,覆盖了整个感染过程。此外,该数据集包含人类气道的所有典型上皮细胞类型,并表明纤毛细胞和俱乐部细胞是该模型系统中优先感染的细胞类型,一些细胞具有超过50%的来自SARS-CoV-2的独特分子标识符(UMIs)。
总之,作者首先定义了随时间变化的基因的每个细胞基因标记,并使用该基因标记来预测预期会导致观察到的细胞基因标记的活性配体。接下来,作者使用Scriabin的高分辨率分组工作流程来对齐来自三个感染后时间点的数据集,然后作者使用这些数据集来组装纵向通信网络。最后,Scribain的分析结果阐明了细胞间纵向信号通路的独特能力,暗示未感染的旁观者细胞的活性可能是下游感染反应的重要介质。这可能反映了其他病毒感染的过程,其中非生产性感染细胞可能是下游炎症活动的关键驱动因素。
展望
总的来说,Scriabin为scRNA-seq数据中CCC的全面分析提供了一个更强大工具包,这将有助于发现在不同疾病状态下丰富的细胞互作信息,从而揭示每个细胞所处生态位和其表型之间的关系。但需要注意的是Scriabin的所有下游信号分析都依赖于NicheNet的配体-靶标活性矩阵,这可能会因细胞类型和用于产生它的刺激条件而产生偏差。NicheNet数据库也不允许分析抑制性信号,因此Scriabin将只返回预测导致激活信号的CCC联系。虽然Scriabin使用NicheNet通过检查下游基因表达变化来预测活跃的CCC联系,但一个额外的分析目标包括确定导致配体上调或表示成功信号传导的上游信号机制。因为通过使用一组基因来推断上游信号传导而不是仅仅依赖于配体表达(这可能受到mRNA和蛋白质表达之间的缺失或差异的影响),还可以获得额外更多的互作信息。
此外,Scriabin假设配体和受体的基因表达值与它们的蛋白质表达密切相关。未来的改进点将是支持多组学数据集的分析,其中直接测量参与CCC的细胞表面蛋白质,或者能够分析通过与多组学数据参考整合而估算的蛋白质测量值。Scriabin的未来迭代将寻求解决这些问题,并进一步提高计算效率。
好啦,本期分享到这里就结束了,我们下期再会~~
[参考文献]
Wilk AJ, Shalek AK, Holmes S, Blish CA. Comparative analysis of cell-cell communication at single-cell resolution. Nat Biotechnol. 2023 May 11. doi: 10.1038/s41587-023-01782-z. Epub ahead of print. PMID: 37169965.
网友评论