空间转录组数据探索
空间转录组的一般分析思路如下:
1.Characterize: 结合scRNA-seq数据反卷积算法或Marker gene/功能评分等方式,判断空间spot的细胞类型及组成;
2.Cluster:通过无监督降维聚类分析,将基因表达模式相似的spot聚成一类,结合细胞类型鉴定结果,分析空间结构中细胞的组成;
3.Relate:分析不同区域(或聚类)间的相互作用关系,如癌和癌旁交界区域中细胞受体-配体分析,肿瘤细胞侵袭轨迹的拟时序分析等;
4.Score:针对感兴趣的区域做功能富集评分,分析组织结构功能;
5.Select:选择关注的组织区域,明确细胞组成与功能结构的关系,提出关键结论。
利用空间转录组数据集进行探索性数据分析
空间转录组高级分析
空间细胞类型鉴定
为了能更好地理解空间转录组数据,识别组织切片上的细胞类型组成,首先会进行空间细胞类型鉴定。鉴于转录组具有独特的空间和时间异质性,联合同一个组织的scRNA-seq数据,可更准确的鉴定空间细胞类型。如SPOTlight、SpatialDWLS、RCTD、Cell2location、CellTrek和MIA等方法,各有优势。我们选择其中最常用的进行介绍。
1.1 Cell2location分析
Cell2location软件针对不同组织,采用负二项式回归来预估每个cluster的平均表达谱,基于参考的scRNA-seq数据应用贝叶斯模型从空间转录组数据中解析细胞类型并创建细胞图谱。此外,Cell2location还可以对细胞类型丰度的NMF(非负矩阵分解)进行估计,NMF产生了一组空间细胞类型丰度分布图,用于捕捉共定位的细胞类型。
A:不同类型细胞在空间上的表达丰度;B:在同一切片上,使用不同颜色同时展示各类细胞类型的表达丰度;C:NMF产生的空间细胞类型丰度分布图。
1.2 MIA分析
MIA分析(multimodal intersection analsysis)通过计算某区域的差异基因与scRNA-seq数据鉴定的细胞类型差异基因之间的重叠程度,来推断特定组织区域中特定细胞类型的富集情况。
A:胰腺导管腺癌(PDAC)切片HE染色及组织学注释结果;B:特征基因的空间表达分布;C:在空间转录组检测结果上进行组织学注释;D:MIA分析细胞类型结果。1.3 SPOTlight分析
每个空间spot大约包含1-10个细胞,因此需要解析每个spot内的细胞组成,这种分析一般称为去卷积分析(deconvolution)。SPOTlight基于NMF(非负矩阵因式分解)的方法,将scRNA-seq数据集作为参考,使用因子分析来预测每个spot可能的单细胞组成,从而实现在空间上定位scRNA-seq数据中亚群。
成年小鼠大脑矢状面前后切片的细胞类型结果,每个spot由不同的细胞组成,细胞占比情况与spot中的颜色比例一致。1.4 空间spot评分
若没有同一样本scRNA-seq数据,且只关心特定几种细胞类型空间位置时,我们可以用特定细胞类型的marker基因(也可以来源于其他scRNA-seq数据),采用ssGSEA和Seurat的AddModuleScore等软件对空间spot进行评分,从而鉴定细胞类型的空间位置。需要注意的是每个样本的score阈值不同,需要根据样本实际情况进行判断。
A:人鳞状细胞癌的HE染色结果和空间stop聚类结果;B:对scRNA-seq来源的TSK(肿瘤特异性角质细胞)的基因进行评分;C:TSK在组织切片上的定位。
在明确空间spot的细胞类型及组成之后,可后续进行一系列高级分析,如CNV肿瘤恶性细胞推断、拟时序分析、细胞通讯受配体分析和空间临近距离分析等,进一步进行数据挖掘。
2. 肿瘤恶性细胞推断(CNV分析)
CNV(Copy number variation,拷贝数变异)是基因结构变异(Structural Variant,SV)的重要组成部分。Broad 研究所开发的CNV分析工具inferCNV,常用于scRNA-seq数据中恶性细胞的鉴定。以正常细胞为参考,通过与参考细胞相比的基因表达强度的相对变化来表示基因的扩增或者缺失。有文章表明,用InferCNV软件从空间转录组数据推断出的绝大多数CNV与Bulk WES数据一致,说明其从空间转录组数据推断出CNV的可靠。此外,SPATA等软件也可以用于CNV分析。
A:用WES技术对肝癌的正常、癌旁交接区和肿瘤组织检测的CNV结果;B:肝癌的癌旁和癌组织空间转录组降维聚类结果,Cluster5为癌旁交接区;C:用inferCNV软件分析肝癌的癌旁和癌组织的CNV变化。
最后可以根据区分的恶性细胞和非恶性细胞结果,将数据映射到空间切片上。黄色代表非恶性细胞,蓝色代表恶性细胞。
图片.png3. 拟时序分析
拟时序分析又称轨迹推断(Trajectory inference)或伪时间分析(Pseudotime analysis),可用于细胞类型命运轨迹的预测。目前空间转录组拟时序分析工具主要有stLearn、SPATA和他应基于单细胞发育轨迹分析的算法(如monocle3,RNA velocity等)。
以stLearn软件为例,首先在明确细胞类型注释的切片上确定起始点,利用拟时序算法DPT(扩散伪时间),计算距离;然后结合空间坐标信息,调整spot之间的拟时序距离,最后构建最小生成树,简化分支后得到发育轨迹。该软件还可以分析进化分支上的过渡基因(指基于轨迹的差异表达基因,在一条分支上沿着这条轨迹增加或者减少的基因),假设从起点到终点,增加的是上调基因,减少的则是下调基因。
stLearn软件的拟时序分析结果可以展示细胞在切片上的侵袭轨迹,从粉红色区域的导管癌细胞,到蓝色区域的侵袭性导管癌细胞。
4. 细胞间距离
组织切片上的细胞分布和基因表达特征,是空间转录组学的研究重点。根据组织学或病理学结果,选定某些spot为中心,可以分析不同组织深度上对应的空间特征,探索组织切片上结构区域的功能变化。
4.1单向距离分析
根据空间区域划分结果,应用GSEA(或GSVA等其他评分软件)可分析不同区域的功能/通路富集变化。例如,由正常过渡到病理状态的切片,可分析通路的组织动态变化。从normal区到病理区(如肿瘤区),每5个spot宽度划分为一个与transition分界线平行区域,对每个区域分别做hallmark pathways的GSVA通路富集分析。可发现与病理状态相关的通路从normal到病理区通路活性变化。
A:原发性肝癌样本,包括正常区、过渡区和肿瘤区;B:过渡区两侧标志通路活性程度随梯度划分的变化。
4.2 双向距离分析
首先选定参考点(或称为中心点),计算其他细胞到中心点的欧氏距离。在此距离上做细胞类型密度曲线,可看出不同距离上共定位的细胞。将距离从零到远,分为四个层级:reference(0),start(1/3分位距离处),middle(2/3分位距离处),end(最远处)。分析各层级上的特异性基因,并进行GO功能注释。在组织切片中识别有显著深度变化的基因,检验基因表达是否特异性地依赖于空间距离;然后对距离特异性基因,基于表达量进行相似性聚类,并对每个聚类出来的类进行GO富集分析。
A:成年人结肠HE结果;B:以黏膜肌层(muscularis mucosa,MM)为中心点,分析其两侧距离/深度评分上的细胞类型分布;C:随着距离增加,发生显著变化的基因热图。垂直断裂表示黏膜肌层,距离评分为零,黏膜下层spots为负距离评分,黏膜上层spots为正距离评分。通过切割层次聚类,划分出两类基因,将基因分为黏膜和黏膜下层特异性表达,并进行GO-BP富集分析。
4.3 空间梯度变化分析(Spatial gradient change analysis)
对完整的病理组织,可以探究从病理中心到四周,信号通路的激活变化。先按照径向将每个组织切片分为4个部分,再将每个部分分为4个小部分;然后按照环形每5个spot做一次分割,即可分为18个环形区域(A-1.1表示A-1区域的cluster1,以此类推),计算通路激活程度与圆心距的相关性。
![A:将直径约1 cm的HCC分为A、B、C、D四段,分析其整体空间异质性;B:在组织空间和UMAP上降维聚类结果;E:肿瘤区分割扇形和环的分布(上),每个部分平均分为四个部分(中),每个环空区域有五个点宽(下);F:气泡热图显示了不同部位肿瘤簇中标志通路活性的中位数与环状顺序之间的Spearman相关性;H:中氧化磷酸化通路活性随环序由内至外的变化。](https://img.haomeiwen.com/i6269486/7146dd03b98d4b4f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240
5. 空间连续性分析(微环境特征)
肿瘤样本空间cluster的分布呈现两种不同的模式,一种呈“块状”,cluster间边界清晰(如HCC-1T和HCC-3T),另一种呈“不连续的混合”(如HCC-2T)。为了定量评价这一特征,引入了一个名为“空间连续性度的度量”概念,该度量通过比较每个点与其相邻点之间的聚类身份一致性来计算。联合另一指标“转录组多样性程度”(用于测量每个切片中肿瘤区域的整体转录组异质性),可定量地发现HCC-1、HCC-3和HCC-4患者的L(癌和癌旁交接区)和T(肿瘤区)切片肿瘤区域具有较高的空间连续性和较低的转录组多样性。
A:原发性肝癌的HE染色(上)和空间聚类分布(下);B:切片肿瘤区域转录组多样性程度和空间连续性程度。
6. 空间结构(细胞组成)分析
特定细胞组成的特殊结构,才能发挥必要的功能,因此分析空间转录组切片上的细胞组成十分必要。如下图,胎儿造血干细胞/多能祖细胞(HSCs/MPPs)扩增单元的鉴定过程。
首先选择切组织片上要研究的特定spots,作为中心点位(Intra-spots,可以spot,也可以是某种细胞类型,某个cluster),将其临近的其他类型细胞作为Inter-spots, 较远距离的细胞作为Distal-spots。然后,统计每种细胞类型在不同分层中的占比,并采用wilcoxon统计方法对不同分层占比进行显著性检验,同时对每个分层各种细胞类型的占比进行计数,以了解特定组织区域的细胞组成情况。
A:说明示意图;B:不同区域上的细胞富集评分箱线图;C:临近区域细胞的组成;D:胎儿HSCs/MPPs扩增单元组成。
7. 细胞通讯分析
细胞通讯(cell communication)是指细胞接收、处理和传递环境/自身信号的能力,它是每个生物体(如细菌、植物和动物)中所有细胞的基本属性。由配体-受体复合物介导的细胞-细胞通讯对于协调各种生物过程至关重要,如发育、分化和炎症。可从空间测序数据中定量推断和分析细胞间通讯网络,并通过整合基因表达与信号配体、受体及其辅助因子之间的相互作用的先验知识来建立细胞-细胞交流的概率,进而对细胞间通讯做出预测。该分析可以应用于揭示发育中细胞的相互作用,探索肿瘤免疫微环境与挖掘疾病治疗靶点等。
7.1空间cluster边缘的互作作用
对两个相邻cluster的接壤区域进行细胞通讯分析。如下图所示,在肿瘤交接区两边各取一定的spot宽度,利用CellPhoneDB软件(使用CellPhoneDB数据库)进行细胞通讯分析(根据受体-配体方向,正反2次),研究相邻cluster间互作的强度。
A:原发性肝癌样本,在交接区各区一定距离的spots;B:空间区域相互作用气泡图。
7.2空间受-配体分析
选择空间切片上的相邻区域,使用stlearn软件(利用connectomeDB2020数据库,由2293个人工筛选的配体受体对组成),可筛选出各互作spot中达到显著水平的互作对。同时计算出互作对的score值,值越大表示互作越强烈,并在空间切面上展示其相应p值、矫正后的p值和-log10(p_adjs)。
A:纵坐标为受配体对达到显著水平的spot的数目,纵坐标为top50受配体的排序;B:受配体对在显著的spot中的表达情况,受体为绿色,配体为红色。
7.3受-配体空间定位
空间转录组以更直观的视角,展示了组织中不同细胞的基因空间表达信息,非常适合于评估scRNA-seq数据中预测到的配体-受体相互作用的可靠性。
在HSC/MPPs周围,scRNA-seq数据分析到的配体基因Ptn(红色点)和受体基因Ptprs(蓝色点)的表达模式和空间定位
网友评论