美文网首页
《Cell》前沿综述:利用地理科学帮助实现空间转录组分析的最大潜

《Cell》前沿综述:利用地理科学帮助实现空间转录组分析的最大潜

作者: JUpter_ | 来源:发表于2023-12-21 11:15 被阅读0次

    文章题目:Mapping the transcriptome: Realizing the full potential of spatial data analysis
    https://doi.org/10.1016/j.cell.2023.11.003

    BOX1 Figure 4

    空间异质性

    空间异质性(BOX 1)描述了一个过程在限定区域内不同区域的变化。这是地理学、环境科学和其他领域经常使用的一个概念,用来描述事物在不同地点的变化情况。空间异质性在试图了解某一过程的基本空间模式时非常重要。从概念上讲,单个变量(如单个基因的表达)可以在组织的不同部位发生变化,在这种情况下,单个基因就表现出空间异质性。有趣的是,空间异质性也可应用于变量之间的关系,这种关系在不同空间可能并不恒定。例如,如图 4 所示,一对基因之间的全局关系(在本例中以简单的线性回归为模型)可能无法准确概括这种关系中的局部变化。在这个例子中,一对基因之间的局部关系在组织中的某些位置很少与全局回归估计值类似,也就是说,局部关系因组织中的位置不同而表现为强的正负相关。

    在分析中考虑空间异质性,可使自变量和因变量之间的关系因地而异。地理加权回归(GWR)(BOX 1)是地理科学中广泛使用的一种方法。从本质上讲,地理加权回归使用移动窗口或核进行一系列局部回归。与标准线性回归不同的是,GWR 包括一个局部空间权重矩阵,用于表示每个局部模型中使用的数据的空间关系。GWR 的输出通过生成每个位置的回归估计值来提供空间异质性估计值,从而能够绘制空间回归系数图,使空间关系可视化(图 4)。b0 是截距,即当基因 X 的表达量为零时,基因 Y 的预期表达量;b1 是系数估计值,描述了基因 X 的表达量每变化一个单位,基因 Y 的表达量会发生多大变化(即回归线的斜率)。

    GWR 的一个关键考虑因素是确定分析的带宽(BOX 1)。带宽定义kernel核大小,从而定义了特定kernel下空间权重矩阵的距离衰减。带宽类似于平滑函数,带宽值越大,观测到的局部效应就越小。标准 GWR 为整个空间确定了一个最佳带宽,从而假设因变量和自变量之间的所有关系都在同一空间尺度上运行。然而,在生物学中,这种情况很少发生,因此标准 GWR 为研究空间异质性确定了一个最佳平均尺度。另外,多尺度 GWR(BOX 1)为每个协变量定义了一个带宽,从而允许每个因变量与自变量关系的分析尺度各不相同。因此,在大多数情况下,多尺度 GWR 可能是最合适的方法, 因为它是避免为整个地图选择单一尺度的折衷方案。

    空间异质性的生物学联系

    在生物科学领域,空间异质性最常用于描述一个组织区域,该区域本应是均质的(例如,特定组织中的细胞类型),但却发现并非均质。在研究自然生态系统表现出的差异等现象时,考虑空差异是很常见的。例如,在肾癌、肺腺癌和胃癌等不同癌症类型中,肿瘤相关巨噬细胞(TAMs)表现出多维异质性。在胃癌中,TAMs也发现根据其在微环境的位置有不同的极化状态,且因不同位置(核心区,边缘区,边界)表现出表型的异质性。这个例子强调了在分析空间分辨率数据时考虑空间异质性的重要性,因为如果不这样做,肿瘤微环境等系统组织中的这些微妙之处就会丢失。

    空间转录组分析的空间意识

    上一节讨论的地理空间数据的共同特征似乎也是空间转录组学数据的常规特征。这意味着在开发分析这些数据的方法时应考虑这些特征。目前已有一些生物信息学分析软件包将空间纳入其中,例如通过计算与距离相关的协方差矩阵,建立一个使用位置信息来构建自身的神经网络,或在聚类之前在贝叶斯模型中考虑观察结果的空间相关性。目前,约有三分之一的空间转录组学工具以某种方式结合空间维度,而且更多的这类工具还在不断开发中。下面,我们将讨论这些方法所涉及的常见空间应用。

    空间聚类

    用于数据探索和推断的聚类分析是空间转录组学数据的主要分析结果。标准聚类分析不考虑数值的空间分布,只考虑其相似性。因此,空间自相关性是聚类分析特别关注的问题。空间自相关性是基因表达空间模式的基础,会产生热点和/或冷点,进而影响聚类。空间聚类和地理加权聚类应区分开来,前者旨在定义地理上具有相似观测值的共定位类别,后者则是在生成聚类的同时解释数据的空间特征(如空间自相关性)。

    空间聚类的一个例子是 SpaGCN 方法,它整合了基因表达、空间位置和组织学数据来构建网络,并检测特定空间区域中富集的空间可变基因,从而生成聚类。地理加权聚类可以在 MERINGUE 中找到,该方法除了考虑转录特征外,还考虑了空间定位,根据空间邻接性对 K 近邻图的边进行加权,从而分辨出空间上不同的细胞亚群。

    绘制空间可变基因图谱

    所有转录组学实验,无论是大样本、单细胞还是空间实验,都在检测基因表达。空间转录组学提供了将这种表达映射到组织特定位置的机会,这些位置也与特定过程或细胞的存在有关。生成基因表达活性图谱可以揭示这些基因在过程层面(process-level)上的功能。更重要的是,通过考虑空间自相关性并在适当的尺度(或一组尺度)上检查空间异质性,可以探索一个过程在空间上的基本稳定性或非稳定性。

    绘制空间可变基因(SVG)图谱的方法包括用广义线性空间模型(GLSM)建立基因表达模型 — 可以捕捉到基本的静态空间过程,并根据出现的模式对基因进行聚类。另一种方法是使用自组织图,构建一个聚类为节点的邻近细胞概要图。节点级空间基因表达使用高斯过程来识别SVG。

    空间注释

    在空间转录组学实验中,表达数据附带的H&E图像可用于已知相关的分割。一旦对组织图像进行了注释,就可以明确检查不同组织区域的基因表达,并探究注释区域与算法定义聚类区域之间的重合度。空间转录组学研究通常采用专家注释的方法来提供情境,但目前还缺乏能系统地生成这种注释的工具。SpatialLIBD 是一种能满足上述某些需求的方法。该方法可实现空间转录组学数据的交互式可视化,并提供人工注释、逐点注释。

    其他空间转录组分析方法

    空间转录组学作为一种技术的历史并不长,这也意味着用于空间转录组学数据分析许多方面的工具不断涌现。在许多情况下,这些工具利用为批量或更常见的单细胞分析开发的技术,并将其直接应用于空间转录组学数据。用于空间转录组学数据的多种分析方法涵盖了许多用例,包括聚类、去卷积、图像分割、三维重建、细胞-细胞相互作用和数据整合等——下文简要概述了其中的一些方面。不属于空间感知(spatially aware)空间转录组学分析范畴的工具超出了本研究的范围,其他地方已经对其进行了详细的评述。

    聚类是一种有用的工具,因为它能对数据进行结构化和有序化处理,从而从复杂的多元数据集中获得有用的见解,进而让研究人员利用这些见解对观测数据进行分类或提出假设。例如,在一项关于牙龈组织炎症的研究中,利用 t 分布随机邻域嵌入(t-SNE)对组织位置进行 k 均值聚类,确定了三种不同的区域类型。另一种方法是Louvain聚类法。它已在 Seurat 和 Scran 等一些最流行的单细胞分析软件包中实现,并已在许多空间转录组学研究中用于聚类。例如,Louvain聚类法利用 Visium 数据揭示了健康和患病肝脏组织的分区模式。

    分辨率高于单细胞的空间转录组学技术(如 Visium)通常需要进行基因表达解卷积,以帮助了解捕获区域的细胞类型组成。最常见的解卷积方法依赖于相关的 scRNA-seq 数据集,该数据集可用作参考,以确定每种细胞类型在空间转录组学数据集合中的比例。许多计算方法,包括深度学习和人工智能、贝叶斯模型以及最大似然估计等其他统计方法也被用来对空间转录组数据进行去卷积。

    与解卷积相比,高分辨率技术通常需要在细胞水平上汇总数据点。这可以通过图像分割方法来实现,以识别组织高分辨率显微图像中的细胞边界。分割方法可使用检测到的转录本的分布,如 Baysor,或将组织学图像数据与空间转录本分析结果结合起来。

    空间转录组学数据很少能独立存在,通常需要将它们与其他相关数据类型结合起来,以丰富对单个数据集的解读。CellTrek 是一种计算方法,它使用多元机器学习模型将 scRNA-seq 和空间转录组学数据集结合起来,实现单细胞空间图谱。由于使用多种技术对组织进行检测会产生不同类型和分辨率的输出,因此需要越来越多的多模式整合。这类整合平台已经开始出现,如Single-Cell Spatial Explorer 和 Tangram。

    许多空间转录组学分析工具可以承担不止一项分析任务,或者在设计时考虑到了整个空间转录组学分析流程。这些工具包通常为空间转录组学数据的可视化提供了一个框架,也为探索性分析和统计分析提供了一个平台。迄今为止,已经发布了十几种工具包,它们具有广泛的共同特征,包括数据预处理、可视化、数据整合、聚类和差异基因表达。虽然工具包之间经常共享功能,但这些功能特征并不完全重叠,因为每个工具包在设计时都考虑为特定的分析流程服务,并经常包含定制方法。

    结论部分

    正如我们所讨论的那样,空间数据所产生的考虑因素--可变面元问题、空间自相关和空间异质性--明显体现在空间转录组学数据中。这些因素的存在可被视为传统分析的干扰因素,足以表明对空间转录组学数据进行空间感知分析(aware analysis)应是默认的做法。有一些为空间转录组学分析开发的工具,本质上是对地理科学几十年来常用的统计方法的重新演绎。这些统计工具在地理科学领域已普遍使用了几十年。值得注意的是,空间转录组学数据的特殊性方面并不妨碍直接使用现有的地理科学模型。

    迄今为止,在为空间转录组学分析开发的方法中,约有三分之一在某种程度上考虑了空间因素,主要是在空间可变基因的识别和感兴趣基因的空间图谱映射。少数考虑到空间的工具正在积极利用在地理科学中开发和验证的方法。有几种工具通过空间自相关统计(如 Moran's I 或 Geary's C)来识别空间 "有趣 "基因,但往往没有采用这一原则的逻辑延伸,空间自相关的存在会破坏经典统计模型。通过专家注释或聚类确定组织区域间的差异表达基因是很常见的。空间自相关性告诉我们,这些区域的基因表达会有所不同,原因很简单,因为它们是由于本身的空间自相关特性而表现出差异。如果不去解释这种潜在的差异,将不可避免地导致大量假阳性观察结果,让那些真正在空间中表达变化的基因置于一边。

    为了消除空间自相关性的影响,一些典型的分析决策被采用,如将spot合并成具有生物功能特征的区域(zone)进行元分析。此分析下,选择合适聚合尺度带来了新的挑战,而这些挑战目前在下游分析中还没有考虑到。地理学的最新进展为确定 MAUP 对所选聚合尺度的影响和选择更合适的尺度提供了方法。尽管如此,通常最合理的剖析组织区域的方法是采用一些已知的生物学方法,因为根据这种生物学方式可以最好地理解所获得的结果。然而,基因表达、空间和表型之间的关系是复杂和多元的。依赖基因表达与生物学观察之间一一的对应关系只能做假设,并不可靠。数据驱动的聚合方法在不忽视生物学的同时,可以避免这些假设,从而得出更易解释的结果。

    从图 4 中可以观察到的一个特点是,即使在生物 "层 "内,基因的表达在相互之间也并不一致。这表明,聚类并非由不可移动的边界所定义,cluster内的基因表达也并非总是同质的。可以肯定的是,同样的原则也适用于区域(无论是层、群还是其他区域的聚合)的边缘。在生态学中,这些边界区域长期以来一直被称为交错群落,而且人们也清楚地认识到,边界往往并不尖锐,而是呈现出从一种表型到另一种表型的梯度,从而形成过渡区。10× Visium 等空间转录组学平台的分辨率相对较低,观察级数据已经是约 10 个细胞的总和,可能跨越不同的生物区域,这可能会放大这一现象(导致我们天真得认为这些区域是存在分界的)。因此,在根据包含硬边界的空间转录组学观测分类得出结论时需要谨慎。

    最常用的空间转录组学分析工具并不一定采用空间方法。虽然这种情况可能会随着时间的推移和更方便用户使用的工具的出现而改变,但这并不表明目前在分析这些数据时应采用 "默认的空间方法"。空间转录组学数据与空间息息相关。通过适当考虑空间数据有别于其他'omics'数据的特点,能够提高分析结果的可靠性。从地理空间数据分析领域获得的知识表明,要充分发挥空间解析数据的威力,我们需要研究局部的生物学情况,而不是从整个数据集出发。这揭示了分析中需要考虑的空间异质性。

    数十年来,地理科学一直在研究空间数据,并因此开发了无数统计技术,这些技术考虑到或积极利用空间来理解各种过程。地理加权回归、地理加权主成分分析、空间加权聚类方法、广义加法模型等方法都已得到广泛探索,并应用于一系列数据。通过采用这些方法并与开发这些方法的科学家合作,可以很容易地加强对空间解析生物分子数据的分析。这种跨学科方法将有助于充分发挥空间转录组学数据分析的潜力。

    相关文章

      网友评论

          本文标题:《Cell》前沿综述:利用地理科学帮助实现空间转录组分析的最大潜

          本文链接:https://www.haomeiwen.com/subject/acoxndtx.html