原位RNA测序使得高分辨率的全转录组特征描述成为可能,并且保留空间信息。这些数据造成了生物信息学的分析困扰,如何有效地使用这些空间信息?相对于非空间数据,包含空间维度属性的数据通常需要特殊的处理,这就需要不同的统计推理工具。地理科学主要使用空间数据,并开发一些方法来分析他们。这里我们将讨论空间分析中带来的难题,并探讨如何能充分利用地理科学来最大程度得实现空间转录组数据的最大利用。
为了理解组织功能的基础,重要的是绘制空间landscape,并刻画组成组织的细胞分子生物学特征。自从1960,当ISH技术首次问世,进一步检测完整组织中RNA分布和质量的方法被开发出来。这些方法通常依赖标记的互补探针与感兴趣序列的结合,以检测特定的转录物或转录物panel。将这些方法从单一转录本扩展到整个转录组一直是个向往的目标。现代的ISH技术,比如smFISH,允许亚细胞转录本定位的可视化,同时保留整体组织结构信息。这些方法的主要局限性在于单次实验中可以靶向的转录本数量,一般从一个到几千个不等,但不允许靶向整个转录本组。这导致无法以无偏见、无假设的方式测量空间基因表达。不过,近来原位杂交技术的发展提高了可用转录本靶标的数量。例如,MERFISH4 是一种基于 smFISH 的技术,目前可提供多达 500 个靶点,理论上通过延长探针长度可扩展到10000 的数量。STARmap5 使用 SNAIL (通过分子内连接进行核酸特异性扩增) 探针靶向 160-1,020 个基因,并能在单细胞水平上保留三维位置信息。扩大覆盖范围的另一个例子是 GeoMX,接近达到全转录范围,该“全转录组图谱”提供人体组织近18000个靶标。
细胞的表型在很大程度上由其转录组决定,而细胞是组织的基本单位。因此,从组织中提供无偏倚的单细胞转录组图谱的技术对于我们在细胞水平上了解组织的组织和功能至关重要。与基于 ISH 的技术不同,单细胞 RNA 测序(scRNA-seq)已被证明是生成相对无偏、没有预设的单细胞分辨率数据的一种宝贵方法,它不依赖于基于探针的单个转录本靶标。 目前已开发出多种 scRNA-seq 技术,它们采用不同的细胞分离和 RNA 扩增方法,这反过来又会影响技术的灵敏度和分析的细胞数量。不过,所有 scRNA-seq 技术的共同点都是在实验开始时将细胞彼此分离,导致实验中细胞的空间定位和拓扑关系丢失。
直到最近,研究人员还只能从空间(基于 ISH 的技术)或scRNAseq全面检测,不能同时进行这两种检测。按照首次发表的空间转录组学实验的方法, 将完整的组织切片放在专门制备的载玻片上,载玻片上有 100 毫米直径的poly-dT 探针点,用于与许多 RNA 分子的多聚腺苷酸化尾部结合。每个探针点都带有唯一的空间条形码。成像后,组织会被通透化,通透化后组织中的 RNA 会杂交到最靠近它的点上。因此,它杂交到的点或多或少位于其在组织中的物理位置。随后的 RNA 测序可以解析到组织图像上的特定位置。因此,空间转录组学将组织成像和空间分辨率与 RNA 测序的全面转录组定量能力结合起来,有效地接近了基于 ISH 技术的空间分辨率。
自 2016 年首次空间转录组学实验以来,基于测序的方法得到了快速发展。例如,10x Genomics Visium 使用 更小spot直径为55 毫米(与最初的 100 毫米相比),而 Slide-Seq/V2 则使用附着在 10 毫米珠子上的探针,这些珠子在组织载玻片上随机组装成单层。Stereo-seq使用 DNA 纳米球图案阵列和原位 RNA 捕获,将分辨率提高到 500 纳米,这意味着基于测序的空间技术可以提供亚细胞分辨率。
现代空间转录组学方法会产生三种不同但又相互关联的数据类型:(1) 图像数据,(2) 表达数据,(3) (2) 的空间方向和位置。典型的空间转录组学分析工作流程(例如,Orchestrating Spatially-Resolved Transcriptomics Analysis with Bioconductor)倾向于将单个观察结果视作来自单个细胞或mini-bulk RNA-seq实验而进行相应的处理,忽略了不同观察结果的空间相对位置。正如我们将要讨论的那样,表达数据及其空间属性是相互纠缠的,如果不考虑后者,就无法正确分析前者。因此如果仅独立处理单个观察结果会有丢失重要信息的风险。
随着空间转录组学技术的商业化,使用这种方法发表的论文数量也在稳步增加。目前利用空间转录组学的研究大致可分为三类。第一类是利用数据进行聚类的研究,例如,基于基因表达对肉芽肿皮肤样本进行聚类,与来自同一组织的单细胞聚类进行比较。其次是考虑特定细胞/基因定位的研究,例如利用标记基因表达来确定小鼠脑样本中星形胶质细胞的位置。最后是考虑不同基因表达的实验,例如在心力衰竭的小鼠模型中发现空间不同分群之间的表达变化。在许多此类实验中,空间信息被用来预先确定特定的兴趣区域。然而,空间内容的全部潜力在于将坐标信息作为待分析数据的内在组成部分,而上述方法并未尝试这样做。正如我们所研究的那样,定义这些感兴趣的区域本身就会产生与空间聚合相关的统计问题。通过适当考虑空间数据分析的问题, 空间数据分析在地理学和生态学等学科中被广泛研究,并将空间视为协变量,一种新型的空间转录组学数据分析应运而生。这种分析利用这一额外的维度来进一步了解基因表达是如何在空间中组织起来的。在下面的章节中,我们将阐明空间数据与其他分子数据的不同之处,并探讨如何管理甚至利用这些差异。 我们在此介绍的关键术语,尤其是地理科学术语,见术语表Box 1
空间数据的主要特征
通过数十年对描述空间问题的数据的研究,地理科学发现了空间分辨数据集的三个主要特征(图 1)。首先,空间数据聚合尺度的选择会影响统计关系和分析过程的理解(图 2),这就产生了可变面元问题(modifiable areal unit problem, MAUP,Box 1)。其次,空间自相关性表明附近的观测值往往相似,这违反了经典统计学的一个主要假设--观测值的独立性(图 3)。最后,空间异质性或空间非定常性表明,与预后乃至过程相关的因素,在空间上会有所不同。因此,过程也会在空间中发生变化(图 4)。虽然本节的示意图使用 Visium 数据来展示这些现象,但这些概念适用于所有类型的空间转录组数据。
Modifiable aerial unit problem (MAUP) 可变面元问题: the choice of spatial data aggregation scale will influence the statistical relationships and process understanding from analyses.
MAUP(方框 1)是地理学中的一个概念,它指出我们对地理单元的定义和分组方式会对我们的分析和结论产生重大影响。空间转录组实验的结果是生物组织的地图,以及该地图上位置的相关信息(一系列基因的表达)。通常情况下,这些信息可以作为区域分析,也可以是大块多细胞组织切片。MAUP 告诉我们,我们对这些观察结果进行分析时,会受到尺度效应(粒度效应)的影响(Box 1)。也就是说,如果我们改变地图上区域的大小,就会得到不同的结果。对空间转录组学数据中的区域进行分区的常见步骤,例如聚类或专家注释,会在我们的地图上产生特定区域(zone)。MAUP 还描述了一种分异效应,即即使区域本身的大小保持不变,为每个区域设定不同的边界也会影响分析和结果。例如,聚类参数的细微变化也会产生不同的聚类布局,这些变化的边界会影响下游分析。例如,改变选择高变异基因的标准必然会影响聚类边界的位置,而聚类边界的改变又会影响差异基因表达或标记基因的选择。图 2 是 MAUP 如何影响空间转录组学数据分析的一个简单示例。该案例显示了不同尺度或区域的测量结果汇总会如何影响一对基因表达的相关性。
所有空间数据分析都会受到 MAUP 和空间尺度分析的影响。分析的空间尺度。MAUP 的核心是认为同一数据在不同的报告单位、不同的空间尺度上进行聚类合并,统计分布、统计关系和统计趋势会表现出不同的特性。它描述了统计分布的变化所导致的计算失真和结果差异,在这种情况下,方差会随着集聚而减小。因此,统计关系的变化是由这些数据生成模型的结果。
MAUP 还与空间取样和空间尺度相互作用。空间尺度包括空间support和分析的空间范围。空间support描述了每个观测值所占据的区域-即观测值所在的空间位置。MAUP 产生于(1)空间数据的空间support和(2)将数据集聚或插值到特定的尺度范围。观测数据的空间support会影响它们之间的统计关系,如统计模型(如回归或分类)。因此,对不同空间support的空间数据进行统计分析,会产生不同的模型、相关性、分类、参数估计等。
尽管 MAUP 是一个核心考虑因素,但即使在地理研究中也很少测试其效果。现在许多学科都在例行使用空间数据,这一点也经常被忽视。不过,在确定 MAUP 的影响和适当的分析尺度方面,还是有一些建议和演示的方法的。简而言之,测试 MAUP 和适当的采样或聚合尺度涉及确定空间尺度,在这些尺度上,所研究的过程在方差、协方差和其他矩方面是稳定的。在处理空间数据时,必须意识到这些问题,并考虑以不同的方式聚合或划分数据,以便更好地了解 MAUP 的潜在影响。
MAUP 和聚合
根据属性将观测数据聚合成群(组),通常是为了降低原始数据的复杂性,并为后续分析提供方便而一致的对象。在地理学中,聚类可能由社会经济或环境属性驱动。而在生物学中,聚类可能与细胞类型或基因表达谱相关。与聚合相关的信息损失的性质与分组的数量及其粒度(间隔尺寸)有关。此外,由于单个观测数据是根据其属性分配到组中的,因此聚合后的分组属性是相似观测数据集的汇总。
空间聚合则不同。这里的观测数据按其位置而非属性分组。它们与聚合区域在空间上相交,属性被进行重新聚合,包括在每个聚合区域重新计数或计算比例、百分比。聚合区域可以通过多种方式定义,例如空间网格(图 2B),或者对于空间转录组学来说是生物学定义的区域(例如,类似于地理科学中的行政区域 图 2C)。这些聚合区域可以根据每个区域所包含的观测结果进行定义。如果区域单元无论出于何种原因发生变化,所包含的观测数据也会发生变化。因此,分组也可能发生变化。
聚合单元的规模(面积、大小、范围)决定了 MAUP 的具体表现。这些表现形式极难预测,因为 MAUP 的影响可能是非嵌套的,例如,一个聚集单元的边界并不总是与另一个单元的边界完全匹配或包围(比较图 2B 和 2C)。此外,这些效应还是非等级性的,例如,较小的单元不会以可预测的方式持续聚合成较大的单元。图 2 所示的例子说明 MAUP 的某些方面适用于空间转录组学数据,并表明值得考虑这一重要概念的潜在生物学意义。
MAUP 的生物学相关性
在地理学中,观测数据通常是按预先确定的区域单位(如人口普查报告区)或按遥感仪器的空间分辨率确定的。观测所捕捉到的基础流程通常由聚合的分辨率来定义,这在遥感中最为明显,但在社会经济建构中也是如此;一个典型的例子就是 “街区“。在生物学中,流程的定义和结构更为严格。组织是由细胞构成的,就分割和聚合而言,细胞可被视为不可分割的。因此,在处理以空间为导向的生物数据时,可以说为数据分析所选择的尺度在某种程度上是由组织结构本身预先确定的,同时承认对过程的理解及其表现形式将受到分析尺度选择的影响。
这意味着,在一个组织内,观察到的和聚集的生物过程发生在不同的尺度上,而尺度的选择会影响研究这些过程的分辨率。举例来说,免疫细胞的活化状态可以通过研究其邻近组织来阐明。这意味着,为下游分析选择适当的尺度对于了解这种活化状态至关重要。理想情况下,所选择的尺度应覆盖细胞的邻近区域,因为更细或更粗的尺度都会影响细胞的活化状态。因为更细或更粗的尺度会导致对免疫细胞状态的不同理解。高分辨率技术(如 Stereo-Seq)自然需要 MAUP,因为亚细胞级的观察结果至少需要在细胞级进行聚合,以方便分析。这种聚合是通过基于网格的系统实现,还是通过基于图像的方法(如细胞分割)实现,对分析结果有很大影响。
网友评论