单细胞 RNA-seq 聚类工作流程

现在我们有了高质量的细胞，我们可以继续后续流程。最终，我们希望对细胞进行聚类并识别潜在的不同细胞类型，但是还有几个步骤需要完成。下面的工作流程示意图中的绿色框对应于 QC 后采取的步骤，共同构成了聚类工作流程。

image

聚类流程

对于具有信息性的事物，它需要表现出变化，但并非所有变化都具有信息性。我们聚类分析的目标是在我们的数据集中保留主要的变异来源，同时限制由于无意义的变异来源（测序深度、细胞周期差异、线粒体表达、批次效应等）引起的变异。）。然后，为了确定存在的细胞类型，我们将使用高度可变的基因进行聚类分析，以确定数据集中变异的主要来源。

此分析的工作流程改编自以下来源：

Satija Lab：Seurat v3 指导教程
Paul Hoffman：细胞周期评分和回归

通过以下步骤识别亚群：

1. 探索不需要的变异的来源

第一步是查看我们的数据是否有未知的可变性因素。在单细胞 RNA-seq 数据中，最常见的评估生物学效应是细胞周期对转录组的影响。另一种已知的生物学效应是线粒体基因表达，这被解释为细胞压力的指示。这一步是探索我们的数据以确定我们想要回归的协变量。

2. 归一化和回归未知变化来源

Seurat 最近引入了一种新方法，sctransform对 scRNA-seq 数据执行多个处理步骤。需要标准化以缩放原始计数数据以获得细胞之间正确的相对基因表达丰度。该sctransform函数实现了数据的高级归一化和方差稳定性。该sctransform函数还回归了我们数据中不需要的变化的来源。在上一步中，我们已经确定了这些可变性来源，在这一步中我们需要指定了这些协变量是什么。

3. 整合

通常使用单细胞 RNA-seq，我们处理多个样本，这些样本对应于不同的样本组、多个实验或不同的模式。如果我们想最终比较组之间的细胞类型表达，建议整合数据。整合是一种强大的方法，它使用这些最大变异的共享源，识别跨条件或数据集的共享亚群 [Stuart and Butler et al. (2018)]。在 Seurat 中进行整合涉及几个步骤。完成后，我们使用可视化方法来确保在我们继续对细胞进行聚类之前进行良好的整合。