CellCall:整合配对配体-受体和转录因子活性以进行细胞间通讯
大家好,在火热的八月,小编迫不及待给大家分享一个超好用的工具,它是今年7月31号发表在Nucleic Acids Res[IF=16.971]期刊上的一篇文章。随着scRNA-seq技术的快速发展,细胞间通讯的相关研究成为了当下的研究热点。目前已有的方法都存在着明显的局限性,它们都不能预测连接细胞内外的通讯通路。在这里,作者开发了CellCall,这是一个通过整合成对的配体-受体和转录因子(TF)活性来推断细胞间和细胞内通讯通路的工具包,目的是使研究人员能够根据scRNA-seq数据破译细胞间的通讯和相关的内部调节信号。小编提示:CellCall的免费获取地址在文末噢~
L-R-TF轴和TF-TG互作数据的收集
首先,一个工具的开发显然是少不了承载所用的数据。L-R指的是配体-受体,TG指的是配体-靶基因。L-R-TF轴数据集是从KEGG通路分析中提取的:(1) 作者首先从NATMI、Cellinker、CellTalkDB、CellChat和STRING数据库中收集了人类的L-R互作对;(2) 接着从KEGG通路中提取L-R互作的下游TF,只有L-R互作和下游的TF在某一通路的同一分支才能认定为定为一个L-R-TF轴,最终共获得了19144个人类L-R-TF轴。
人类TF-TG互作对是从TRANSFAC, JASPAR, RegNetwork等16个数据库获得的,总共收集了587248个人类实验支持的互作。此外,还通过Cellinker获得了12069个小鼠L-R-TF轴和554207个TF-TG互作数据。
推断细胞间通讯
接下来,小编介绍的是工具的算法部分。为了推断不同细胞类型之间的细胞间通讯,Sk被定义为细胞类型i和j之间的L-R互作k的通讯得分,它是通过整合L-R互作LRk的L2范数和下游TF的活性得分TFk来评估的。该公式如下:
其中TFk是L-R互作k下游TF的活性得分。LRk是由L-R互作k的配体和受体的归一化表达值(通过softmax函数归一化)表示的二维向量。
其中Li,k是配体在细胞类型i中的平均表达值,Rj,k是受体在细胞j中的平均表达值。此外,为了防止scRNA-seq数据丢失的影响,用户还可以选择配体/受体的分位数表达值(25%,50%和75%)来代表Li,k和Rj,k。如果配体是包含n个亚基的复合物,则定义L为所有亚基表达值的几何平均值,其中lg是配体复合物中亚基的表达值:
跟配体类似,如果受体是包含n个亚基的复合物,则R被定义为所有亚基表达值的几何平均值,其中rh是受体复合物中亚基的表达值:
TF活性得分TFk是根据TF调节子的表达来评估的。根据SCENIC,调节子被定义为在单细胞表达谱中与TF共同表达的TG集合。
其中GTG是一个TF的所有TG基因集,Gcoexp是一个TF的所有共表达基因集。基因共表达是通过Spearman相关系数计算得到的。
然后,TFk是该调节子的基因集富集分析(GSEA)得到的富集分数(ES)。其计算公式如下。
其中FC是所有TG在调节子中的倍数变化,adjust.p为GSEA的显著性水平。如果adjust.p低于阈值α(默认为0.05),则TFk等于GSEA的ES;否则,TFk等于0。
如果L-R互作k的下游有n个TF,活性得分TFk被定义为所有TF的加权和。其计算公式如下,其中M是通路中从TFk,i到受体k的最短路径:
通路活性分析
CellCall包含了一个通路活性分析方法,它可以探索某些细胞之间通讯所涉及的主要通路。首先,CellCall根据Jaccard相似系数对通路i的活性进行量化。通路活性分数nPASi的公式如下:
其中nPASi是z得分归一化的PASi,PASi的计算方法如下:
其中CLR是通过细胞间通讯分析推断的特定细胞类型之间的L-R互作,PLR是通路中的L-R互作,CellCall还通过超几何检验估计了通路活性的显著性。公式如下:
其中,m是所有L-R互作的数量,t是细胞间通讯分析推断出的L-R互作的数量,n是一条通路中L-R互作的数量,q是t和n的重叠数。
scRNA-seq数据集的数据收集和处理
作者从先前研究中收集了包含2532个人类睾丸细胞的scRNA-seq数据,还从TISCH数据库中获得了10个TIME(肿瘤免疫微环境) scRNA-seq数据集。基于MAESTRO的标准流程进行了质控,去除批次效应,细胞聚类和基于表达矩阵的细胞类型注释。
统计分析
作者使用R包“psych”中的Spearman相关分析来评估TF和靶基因之间的相关性。“survival”包中的Kaplan-Meier,log-rank检验和单变量Cox回归被用来评估TF表达和生存时间之间的关系。使用“stats”包进行了超几何检验和Fisher精确检验,“clusterProfiler”包用来做富集分析,“pROC”包用来画ROC曲线。
CellCall概述
小编在这里总结一下该工具的原理和特性。图1显示了CellCall的核心算法和细胞间通讯模型,具体来说就是细胞信号通过细胞间的L-R互作从发送方细胞传递到接收方细胞,然后信号通过一个特定的信号传导通路传递到接收方细胞内部,通常会导致下游TF和GRN(基因调控网络)活性的变化(图1A,B)。根据这个生物学模型,作者建立了一个细胞间通讯的统计模型,它由两部分组成,一个是L-R对(细胞间信号传递),另一个是调节子(细胞内信号传递)(图1C)。L-R对被定义为由配体和受体的表达值表示的二维向量,调节子被定义为与TF共同表达的TG集合。然后,通过整合细胞间信号传导(配体和受体的表达)和细胞内信号传导(下游TF的活性得分)来计算L-R对的细胞间通讯得分。下游调节子的活性状态和得分是通过GSEA来估计的,当一个L-R互作可以激活多个调节子时,活性得分被定义为所有激活调节子的加权总和。总的来说,CellCall不仅能够量化某些L-R对的细胞间通讯,还能推断出由TF活性反映的内部调节信号。此外,CellCall还嵌入了通路活性分析方法,这有助于探索细胞间串扰所涉及的主要通路(图1D)。
科研的小伙伴都知道,L-R互作和下游TF先验知识的准确性对于推断有意义的细胞间通讯至关重要。因此,作者从KEGG数据库中提取了L-R-TF轴数据,除了细胞间通讯分析和通路活性分析外,CellCall还提供了丰富的可视化工具来直观地展示分析结果,包括热图、Circos图、气泡图等(图1D)。
图1CellCal概述推断人类生精生态位和生殖细胞之间的细胞间通讯
睾丸生态位通过复杂的细胞间信号转导在精子发生过程中发挥重要作用。因此,作者将CellCall应用于人类睾丸细胞的scRNA-seq数据集(图2A)。由于支持细胞(ST)是位于生精小管中唯一能够支持生殖细胞发育并充当生精生态位的体细胞,作者分析了支持细胞到其他14种生殖细胞的细胞间信号传递。如图2所示,与其他生殖细胞类型相比,SSC(精原干细胞)是来自支持细胞信号的主要接收者。通路活性分析显示,从支持细胞到SSC的细胞间信号传递主要富集在Notch信号通路、Hippo信号通路、MAPK信号通路、PI3K-Akt信号通路和人巨细胞病毒感染通路(图2),这些通路对精子的形成至关重要。
图2 CellCall在人体睾丸细胞上的应用案例研究从支持细胞到SSC共识别了47条细胞间通讯通路(图2),其中大部分都与精子发育或SSC分化有关。对这些细胞间通讯下游的TF进一步分析表明,这些TF大多与精子发育有关(图2E)。对这些TF的富集分析表明,所有的TF都被明显激活(图3A),而且大多数TG的FC值都大于1(图3B)。
为了证实CellCall推断的细胞间通讯,作者进行了免疫染色试验,以确定ST和SSC之间INHBB-ACVR2A/B-SMAD2轴的表达。结果显示,在FGFR3+SSC中,ACVR2B(红色)与INHBB和SMAD2共存(图3C-E)。此外,ACVR1B也被确认在FGFR3+SSC中表达(图3F)。
图3 下游TF的富集分析和INHBB-ACVR2A/B-pSMAD2轴的免疫荧光推断生殖细胞的细胞间通讯
最近的研究表明,不同生殖细胞之间的细胞间通讯也在精子发生中起作用。因此,作者应用CellCall来推断SSC与其他分化生殖细胞之间的候选细胞间通讯。如图4A、B所示,从P(粗线期)到SSC的细胞间通讯可能在SSC和其他不同的生殖细胞间的串扰中起关键作用。如桑基图所示,从P到SSC的细胞间通讯的下游TF,如HES1、SMAD1/9、TCF7和ID4,都被报道参与了精子的形成(见图4C)。作者还通过免疫染色证实了从P到SSC的通讯轴(GDF5-BMPR1B-SMAD1)(图4D)。这些结果显示,在成人睾丸切片中,BMPR1B+(受体)和pSMAD1 + SSC均含有GDF5+(配体)精母细胞(图4E)。GDF5-BMPR1B信号已被报道在软骨形成和成骨过程中发挥重要作用。
图4 其他生殖细胞到SSC的细胞间通讯分析推断TIME中免疫细胞的细胞间通讯
越来越多的研究表明,肿瘤生态环境中免疫细胞之间的细胞间串扰参与了炎症、免疫和肿瘤的发生,这对肿瘤的发展至关重要。在这项研究中,作者将CellCall应用于10个TIME scRNA-seq数据集。首先,通过CellCall分析了6种免疫细胞类型,即B细胞(B)、常规CD4 T细胞(CD4Tconv)、CD8 T细胞(CD8 T)、衰竭CD8 T细胞(CD8Tex)、单核细胞/巨噬细胞(Mono/Macro)和自然杀伤(NK)细胞之间的细胞间通讯。如图5A所示,与其他细胞类型相比,Mono/Macro从其他免疫细胞中收到的信号明显更多,表明Mono/Macro在TIME中免疫细胞的细胞间串扰中起主导作用。然后,在研究正常/肿瘤组织之间细胞间通讯的差异中,作者在4个以上的数据集中得到了7个常见的肿瘤特异性细胞间通讯(图5B),它们都涉及从其他细胞到Mono/Macro的细胞间通讯,包括CCL3/4/5-CCR1/5和TNF-TNFRSF1B信号(图5C)。
此外,作者还研究了这些通讯下游的TF,大多数被激活的TF参与了癌症的进展(图5D)。为了进一步证明这些TF在癌症中的功能和CellCall的性能,作者利用TCGA泛癌数据研究了前10个TF的表达与患者生存的关系。如图5E,所有TF都显著影响了不同癌症患者的总生存率。这些结果表明,CellCall能够有效地推断TIME中重要的细胞间通信,并识别受细胞间串扰影响的潜在细胞内过程。
图5 CellCall在TIME中的应用案例研究CellCall与其他工具的比较
既然要推荐这个工具,当然是拥有其他工具不具备的优越性。作者从数据、方法和可视化三个方面系统地比较了CellCall和其他9个工具的特性,CellCall均优于其他几个工具(表1)。接下来,在人类睾丸细胞的数据集上比较了CellCall和其他4个提供通讯分数阈值的工具(CellPhoneDB、CellChat、iTALK和SingleCellSignalR)的性能。如图6A所示,每个工具根据的默认cutoff值鉴定了从支持细胞到SSC的细胞间通讯。与这些细胞间通讯有关的文献中,CellCall所识别的细胞间通讯超过87%被证实参与了精子的形成(图6B),其文献支持率都高于其他几个工具。然后,作者用ROC曲线来比较这些方法,CellCal获得了最高的AUC值(图6C)。从这些方法的结果与最佳cut-point可以看出,与这些现有的方法相比,CellCall更能准确地推断出细胞间的通讯(图6D)。
表1Cellcall与其他工具的特征比较 图6在人睾丸细胞的scRNA-seq数据集中比较CellCall与其他工具的性能参考文献:CellCall: integrating paired ligand–receptor andtranscription factor activities for cell-cellcommunication
CellCall获取地址:https://github.com/ShellyCoder/cellcall。
网友评论