量化肿瘤微环境(TME)中各种细胞类型之间和内部的串扰,有助于开发用于肿瘤靶向治疗的工具。《Briefings in Bioinformatics》发表了一篇综述文章,介绍了 TME 中细胞间通信估计的管道、配体-受体相互作用 (LRI) 数据资源和可视化工具,并且主要展示了七种经典的细胞间通讯评分策略,分析了各种细胞间串扰推断方法的优点和局限性。此外,还探讨了细胞间通讯识别过程中的挑战。
结合 scRNA-seq 数据、空间转录组数据和 LRI,配体-受体介导的细胞间通讯推断通常包括以下七个步骤:
(i) 细胞调查。 从 scRNA-seq 数据研究细胞以评估所有基因的表达水平。
(ii) 基因表达矩阵构建。 基于跨不同细胞的每个基因的转录数据构建基因表达矩阵。
(iii) 原始 LRI 数据整理。从可用数据资源中捕获参与细胞间通讯的相互作用蛋白(例如配体和受体之间的相互作用)。
(iv) 基因筛选。 与相互作用蛋白相关的基因保留在上述基因表达矩阵中。
(v) LRI 分数计算。 基因表达值用作计算介导两种细胞类型的每个配体-受体对的相互作用分数的输入。
(vi) 细胞间通讯推断。 聚合来自介导两种细胞类型的所有 LRI 的相互作用分数,以获得两种细胞类型之间串扰的总体状态。
(vii) 可视化。 可视化工具用于解释聚合的细胞间通信分数。
LRI 数据源和可视化工具
LRI 数据源
从 scRNA-seq 数据重建细胞间通讯取决于基因共表达,其中给定对中的两个基因分别来自两个独立的相互作用细胞。应用于细胞间通讯推断的主要基因类别来自观察到的配体及其同源受体。因此,提出了一些研究整理了 LRI 数据源,通过结合有关 LRI 的先验知识来量化细胞间通讯。
已知配体-受体相互作用数据库可视化工具
已经开发了各种可视化工具来分析细胞间通信。使用这些工具可以更生动地描述细胞间的通信。
细胞间通信可视化工具细胞间通信评分策略及计算方法
着眼于配体-受体共表达模式,细胞-细胞通讯评分可以结合已知的 LRI 和单细胞转录组数据进行量化。经典的细胞间通讯评分策略包括基于表达阈值的方法、基于表达产物的方法、基于表达归一化的方法、基于特异性表达的方法、基于表达的总计分方法、基于正则化产物的方法和基于几何平均值的方法。
在 TME 中,各种细胞类型通过配体-受体介导相互交流。关注分泌配体及其同源细胞表面受体的共表达模式,不断开发用于细胞间通讯预测的计算方法。这些方法主要涉及基于网络的方法、基于机器学习的方法、基于空间信息的方法和其他方法。
细胞间通信推理方法的输入、案例研究和代码推断出的细胞间通讯可以通过三种方式进行评估和验证:实验策略、计算策略和文献整理。用于验证和评估预测的细胞间通讯的实验策略大致涵盖三个层面:(1)表达验证;(2) 功能验证;(3) LRI可视化。计算策略主要包括近似似然比检验(ALR)、Benjamini Hochberg程序(BH)、交叉验证(CV)、Fisher检验(Fisher)、超几何分布(HD)、t检验、Wilcoxon检验(Wilcoxon)、Kolmogrov-Sminov检验(KS)和排列检验或重新随机化检验(permutation)。此外,文献检索也是验证推断的细胞间通讯的一种方法。
细胞-细胞通信的评估和验证基于计算的细胞间通讯识别方法主要包括四个过程:数据获取和预处理、细胞类型识别、涉及两种细胞类型的配体-受体对评分以及基于配体-受体对评分的细胞-细胞通讯预测。 计算方法显着促进了配体-受体介导的细胞间通讯推断。然而基于网络的方法无法探测孤配体或受体的配体和受体之间潜在的相互作用;基于机器学习的方法需要确定聚类的数量并解决缺少负 LRI 的问题;基于空间信息的方法需要协调不同的异构数据。
细胞间通信推理方法的优缺点挑战及未来研究方向
挑战
细胞间通讯推断通常旨在根据转录组学数据和 LRI 数据对两种细胞类型之间的通讯特异性进行评分。尽管计算方法已越来越多地用于测量TME中相同或不同细胞类型之间的串扰,但仍面临许多挑战,包括整合scRNA-seq数据、空间转录组数据和源图像;优化细胞类型识别及其分离精度;存在错误和缺失的LRIs数据;缺乏“金标准”数据集来衡量细胞间通信推理模型的性能。
未来研究方向
未来,细胞间通信识别可以基于以下方向进一步进行:
1)数据获取和集成:整合可用的数据资源以获得更精确的LRIs样本,尤其是人类进化上更接近的多个物种的LRIs。此外,机器学习技术可以成为减少LRIs观测中未知噪声的有效策略。
2)使用多组学技术推断细胞间通信:(i)现有的细胞-细胞通信鉴定方法忽略了其他非肽分子,例如小分子、miRNA、核酸配体和脂质。随着单细胞多组学技术的进步,多种方法整合多组学数据可能会显著增强关于肿瘤细胞状态改变的机制知识。(ii)细胞通信推断应考虑细胞的空间接近性。空间转录组学技术使用配体和受体的表达数据作为输入,使用细胞类型之间的距离作为输出,可能有助于识别细胞间通信的物理距离依赖性潜力。(iii)还应研究单核RNA测序方法,对单核进行分析,并对不易分离成单细胞悬浮液的组织(例如大脑和骨骼肌)进行快速样品处理。
3)基于深度聚类的细胞类型识别:深度聚类模型可以使用多层抽象和反向传播算法获得数据的有效表示并捕获其复杂结构,已广泛应用于生物信息学的各个领域。因此,基于深度学习的聚类技术,结合细胞的生物学特征,可以成为更准确地识别细胞类型的一种强有力的策略。
4)基于集成深度学习的LRIs分类:集成深度学习融合了集成学习思想和深度学习技术,具有显著的灵活性和适应性。通过其在细胞间通信评估中的新应用,集成深度学习将释放其处理各种关键挑战的能力,包括噪声和异构数据、高维度和不平衡的类分布,同时显着提高细胞间通讯量化模型的准确性、稳定性和可重复性。
5)肿瘤特异性细胞间通讯预测:TME 中的细胞间通信识别应该考虑它们对TME的特异性。肿瘤中捕获的细胞间通讯也应与来自同一供体的对照组织中的细胞间通讯进行比较。此外,还应区分LRIs的变化是由癌细胞之间的通讯引起的,还是癌细胞与浸润的免疫细胞之间的通讯引起的。
首发公号国家基因库大数据平台
参考文献
Peng L, Wang F, Wang Z, et al. Cell–cell communication inference and analysis in the tumour microenvironments from single-cell transcriptomics: data resources and computational strategies[J]. Briefings in Bioinformatics, 2022, 23(4): bbac234.
网友评论