文章题目:Mapping the transcriptome: Realizing the full potential of spatial data analysis
https://doi.org/10.1016/j.cell.2023.11.003
![](https://img.haomeiwen.com/i6269486/4d25da4892d861cf.png)
Spatial autocorrelation 空间自相关
空间自相关的概念(BOX 1)已存在多年。它体现在托布勒的 "地理第一定律 "中。但近处的事物比远处的事物更相关。这反映了我们对所处世界的直观认识,现象是聚集在一起的,而不是随机分布的,意味着观测值存在某种形式的距离衰减,现象的测量值在空间上是相关的。这种缺乏观测独立性的现象必须用统计模型来解释。
![](https://img.haomeiwen.com/i6269486/48d2fadeab4c14cd.png)
对于空间分辨率数据集中的测量值,有几种成熟的空间自相关性测试方法,它们都具有相似的基本操作。从本质上讲,它们都是通过比较每个观测值与其邻域中的观测值来生成相似性度量。邻域可以通过距离或某种形式的邻接关系(一阶到 n 阶)来定义,空间自相关检验可以报告空间自相关的局部度量或全局(整个地图)度量(BOX 1),后者基本上是从局部度量中总结出来的(BOX 1)。例如,在空间转录组学中,全局测量将显示基因是否表现出空间自相关性(图 3Bi),而局部测量将揭示所述空间自相关性的确切模式(图 3Biii)。局部度量的优点在于它们能显示数据中空间自相关的位置,关键是空间自相关检验的局部显著性。为了理解空间自相关性的局部度量,我们首先需要考虑其全局对应指标。
空间自相关性的全局度量
莫兰相关系数(Moran's I)是空间自相关性的单变量度量(图 3A)。它是公认的、应用最广泛的空间自相关统计量。I 的取值范围在 1 和 +1 之间,取值接近 +1 表示空间自相关性很强(图 3Bi)(BOX 1),取值接近 1 表示空间自相关性很强(即完全分散)(BOX 1),取值接近 0 表示变量随机分散(图 3Bii)。
莫兰 I 的替代指标包括 Geary's C 和 Getis 与 Ord's G 统计量。Geary 的 C 只取正值,其中 C = 1 表示缺乏空间自相关性。C 值接近 0 表示正空间自相关性增加,而 C>>1 则表示负空间自相关性,表明一个地点与其邻近地点之间存在巨大差异。因此,Geary's C 与 Moran's I 呈反比关系,但由于计算方法不同(表 1),两者并不直接相关。由于计算方法不同,莫兰 I 更像是一种全局指标,对极端值更为敏感,而 Geary C 则对邻近地区的数值差异更为敏感。G 统计量是检查相似值是否同处一地的理想方法,因为它只提供正性空间自相关性的度量。作为空间自相关性的局部模型,G 统计量更为有用,这将在下一节中讨论。
空间自相关性的局部测量方法
空间自相关性的全局检验产生一个单一的统计量,对整个数据集的空间自相关性进行评估,并显示空间自相关性的总体程度。然而,研究的某些部分可能比其他部分表现出更大的空间自相关性。识别局部的空间自相关模式往往能提供更多信息。上文提到的每种空间自相关性全局指标都有对应的局部指标。局部空间自相关指标(LISA)(BOX 1)提供了三种信息。首先,每个观测值的局部空间自相关测量值可显示该观测值周围数值的空间聚类程度。其次,空间自相关的局部指标提供了局部重要性的度量,第三,提供了每个观测值对全局空间自相关统计量的相对贡献的度量(图 3B,iii 和 iv)。
空间自相关性和统计推断
空间自相关统计量的假设检验可以通过 Z 值计算或蒙特卡罗置换模拟法来实现。这两种方法都涉及伪 p 值的估计(BOX 1),应谨慎对待,因为这种估计值不可能真实反映 I 型错误的可能性。因此,这种分析应被视为严格的探索性分析,并进行严格的错误发现率FDR校正。这与采用全局或局部空间自相关测量来指导后续分析有直接关系。例如,可以单独选择空间可变基因或将其与高度可变基因结合起来,以进行降维和后续分析。如果不考虑上述统计因素,就会影响所选基因组的质量,进而影响下游结果。
多因素空间相关
上述统计是单变量统计,因此需要考虑空间数据集中的每一个测量值。多变量空间关联局部指标(LIMSA)(BOX 1)在生物系统中也很有用,因为在生物系统中,观察到的表型往往是多个共调变量的产物。在 LIMSA 中,核心概念是测量多变量特征空间中的相邻变量在地理空间中的相邻程度。LIMSA 统计量受到维度的不利影响,因为要以给定的准确度估计一个任意函数,所需的样本数量会随着输入变量的数量(即维度)呈指数增长(见Figure 2), 如果特征(即基因)的数量大于观测值的数量,就有可能出现模型过拟合的情况。另一方面,如果维数过多,每个观测值与其他观测值之间的距离相等,从而无法形成有意义的聚类。
维度问题,再加上从单变量测量中继承下来的伪 p 值估计方法。空间自相关性的单变量测量方法遗留下来的伪 p 值估计方法,这意味着在解释空间自相关性中的对 LIMSA 中 "具有统计意义 "的位置的解释应谨慎。伪 p 值只能提示有意思的空间位置(BOX 1)。同样需要注意的是,单变量情况下的有显著意义的位置聚类并不一定意味着多变量空间中的显著聚类。
空间自相关的生物学意义
原位细胞的行为受周围环境的影响,包括细胞内信号和与邻近细胞的直接接触。因此,这意味着当考虑细胞变量(如表达的基因)所处的空间环境时,依赖于周围环境而不是独立变量。这表明,RNA-seq 分析的成熟统计方法并不完全适合空间转录组实验,因为这些方法通常假定值是独立的。
胚胎发育过程是空间信号直接影响精确空间模式的典型例子。由于如胚盘以及原肠胚这些具有精细组织结构的区域表现出独特的转录组特征,它们具有正性的空间自相关值。
在肝脏的分区系统中也有类似的例子,表明不同肝区(如中央静脉和门静脉邻近)的标记基因表现出显著的空间自相关性。分区的概念也适用于骨髓,骨髓中包含各种细胞类型组成不同的niche。在肺部,空间图谱分析可将肺叶组织划分为四个不同的区域,这些区域的细胞组成不同,因此基因表达也不同。在肿瘤微环境中也可以发现空间有序的邻近结构,它可以表现出不同微环境亚型的连贯群落,这些群落在空间上具有组织性。因此,如果不考虑空间自相关性,应采取合适的研究方式。
网友评论