单细胞参考映射简介

在此教程中，我们首先构建一个整合的参考集，然后演示如何利用此参考集来注释新的查询数据集。生成参考集可以参考该文中详细流程。生成后，此参考集可用于通过细胞类型标签转移和将查询细胞投影到参考集 UMAP 等任务来分析其他查询数据集。值得注意的是，这不需要校正基础原始查询数据，因此，如果提供高质量的参考集，则可以成为高效的策略。

数据集预处理

为了演示，我们选择了通过四种技术（CelSeq （GSE81076）、 CelSeq2 （GSE85241）、 Fluidigm C1 （GSE86469）和 SMART-Seq2 （E-MTAB-5061）产生的人类胰岛细胞数据集。为了方便起见，我们通过SeuratData包分发此数据集。元数据包含四个数据集中每个细胞的技术（列）和细胞类型注释（列）。

library(Seurat)
library(SeuratData)

InstallData("panc8")

为了构建参考集，我们将在各个数据集之间识别"锚点"。首先，我们将合并后的对象拆分为一个列表，每个数据集都作为元素。

data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]

在找到锚点之前，我们执行标准的预处理，并单独识别每个变异基因。

for (i in 1:length(pancreas.list)) {
    pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
    pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, 
        verbose = FALSE)
}

整合 3个胰岛细胞数据集

接下来，我们使用FindIntegrationAnchors()识别锚点。在这里，我们将其中三个对象整合到到参考集中（使用第四个对象作为查询数据集来演示映射）。

我们使用所有默认参数来识别锚点。

reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然后，我们将这些锚点传递到函数IntegrateData()中，该函数返回 Seurat 对象。

返回的对象将包含一个新的Assay，它包含一个整合所有细胞的（或"批次校正后"）表达矩阵，使他们能够共同分析。

pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

运行IntegrateData()后，Seurat对象将包含一个新的Assay，具有整合表达矩阵。请注意，原始值（未校正值）仍存储在"RNA"Assay，因此您可以来回切换。

然后，我们可以使用这种新的整合矩阵进行下游分析和可视化。在这里，我们对整合数据进行归一化，运行 PCA，并使用 UMAP 可视化结果。可以看出，整合数据集按细胞类型而不是按技术进行聚类。

library(ggplot2)
library(cowplot)
library(patchwork)
# switch to integrated assay. The variable features of this assay are automatically set during
# IntegrateData
DefaultAssay(pancreas.integrated) <- "integrated"
# Run the standard workflow for visualization and clustering
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) + 
    NoLegend()
p1 + p2

image

使用整合的参考集的对细胞类型注释

Seurat 还支持将参考数据集（或元数据）投影到查询对象上。虽然许多方法都是保守的（这两个程序都是从识别锚点开始），但数据转移和整合之间有两个重要区别：

在数据转移中，Seurat 不会校正或修改查询数据。
在数据转移中，Seurat 有一个选项（默认设置），将参考的 PCA 结构投影到查询集上，而不是学习与CCA 的共有结构。我们通常建议在 scRNA-seq 数据集之间投影数据时使用此选项。

找到锚点后，我们使用TransferData()根据参考数据对查询数据进行注释。 TransferData()返回带有预测 ID 和预测分数的矩阵，我们可以将其添加到查询数据中。

pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, 
    dims = 1:30)
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, 
    dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因为我们有完整的整合分析的原始标签注释，因此我们可以评估预测的细胞类型注释与参考集的匹配程度。在此示例中，我们发现细胞类型分类存在高度一致性，超过 96% 的细胞被正确标记。

pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)

## 
## FALSE  TRUE 
##    21   617

为了进一步验证这一点，我们可以检查特定胰岛细胞群的一些传统细胞类型标记。请注意，即使其中一些细胞类型仅由一个或两个细胞（如 epsilon 细胞）表示，我们仍然能够正确地对它们进行分类。

table(pancreas.query$predicted.id)

## 
##             acinar activated_stellate              alpha               beta 
##                 22                 17                253                256 
##              delta             ductal        endothelial              gamma 
##                 22                 30                 12                 18 
##         macrophage               mast            schwann 
##                  1                  2                  5

VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")

image

统一模式 UMAP 投影

在 Seurat v4 中，我们还能够将查询集投影到参考集 UMAP 结构上。这可以通过计算参考UMAP模型，然后调用MapQuery()。

pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query, 
    refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")

现在，我们可以同时可视化参考组和查询组细胞。

p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3, 
    repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, 
    label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2

image.png