美文网首页
Seurat4.0系列教程15:映射和注释查询数据集

Seurat4.0系列教程15:映射和注释查询数据集

作者: Seurat_Satija | 来源:发表于2021-05-22 08:53 被阅读0次

    单细胞参考映射简介

    在此教程中,我们首先构建一个整合的参考集,然后演示如何利用此参考集来注释新的查询数据集。生成参考集可以参考该文中详细流程。生成后,此参考集可用于通过细胞类型标签转移和将查询细胞投影到参考集 UMAP 等任务来分析其他查询数据集。值得注意的是,这不需要校正基础原始查询数据,因此,如果提供高质量的参考集,则可以成为高效的策略。

    数据集预处理

    为了演示,我们选择了通过四种技术(CelSeq (GSE81076)、 CelSeq2 (GSE85241)、 Fluidigm C1 (GSE86469) 和 SMART-Seq2 (E-MTAB-5061) 产生的人类胰岛细胞数据集。为了方便起见,我们通过SeuratData包分发此数据集。元数据包含四个数据集中每个细胞的技术(列)和细胞类型注释(列)。

    library(Seurat)
    library(SeuratData)
    
    InstallData("panc8")
    

    为了构建参考集,我们将在各个数据集之间识别"锚点"。首先,我们将合并后的对象拆分为一个列表,每个数据集都作为元素。

    data("panc8")
    pancreas.list <- SplitObject(panc8, split.by = "tech")
    pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]
    

    在找到锚点之前,我们执行标准的预处理,并单独识别每个变异基因。

    for (i in 1:length(pancreas.list)) {
        pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
        pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, 
            verbose = FALSE)
    }
    

    整合 3个 胰岛细胞数据集

    接下来,我们使用FindIntegrationAnchors()识别锚点。在这里,我们将其中三个对象整合到到参考集中(使用第四个对象作为查询数据集来演示映射)。

    • 我们使用所有默认参数来识别锚点。
    reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
    pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)
    

    然后,我们将这些锚点传递到函数IntegrateData()中,该函数返回 Seurat 对象。

    • 返回的对象将包含一个新的Assay,它包含一个整合所有细胞的(或"批次校正后")表达矩阵,使他们能够共同分析。
    pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)
    

    运行IntegrateData()后,Seurat对象将包含一个新的Assay,具有整合表达矩阵。请注意,原始值(未校正值)仍存储在"RNA"Assay,因此您可以来回切换。

    然后,我们可以使用这种新的整合矩阵进行下游分析和可视化。在这里,我们对整合数据进行归一化,运行 PCA,并使用 UMAP 可视化结果。可以看出,整合数据集按细胞类型而不是按技术进行聚类。

    library(ggplot2)
    library(cowplot)
    library(patchwork)
    # switch to integrated assay. The variable features of this assay are automatically set during
    # IntegrateData
    DefaultAssay(pancreas.integrated) <- "integrated"
    # Run the standard workflow for visualization and clustering
    pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
    pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
    pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
    p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
    p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) + 
        NoLegend()
    p1 + p2
    
    image

    使用整合的参考集的对细胞类型注释

    Seurat 还支持将参考数据集(或元数据)投影到查询对象上。虽然许多方法都是保守的(这两个程序都是从识别锚点开始),但数据转移和整合之间有两个重要区别:

    1. 在数据转移中,Seurat 不会校正或修改查询数据。
    2. 在数据转移中,Seurat 有一个选项(默认设置),将参考的 PCA 结构投影到查询集上,而不是学习与CCA 的共有结构。我们通常建议在 scRNA-seq 数据集之间投影数据时使用此选项。

    找到锚点后,我们使用TransferData()根据参考数据对查询数据进行注释。 TransferData()返回带有预测 ID 和预测分数的矩阵,我们可以将其添加到查询数据中。

    pancreas.query <- pancreas.list[["fluidigmc1"]]
    pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, 
        dims = 1:30)
    predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, 
        dims = 1:30)
    pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)
    

    因为我们有完整的整合分析的原始标签注释,因此我们可以评估预测的细胞类型注释与参考集的匹配程度。在此示例中,我们发现细胞类型分类存在高度一致性,超过 96% 的细胞被正确标记。

    pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
    table(pancreas.query$prediction.match)
    
    ## 
    ## FALSE  TRUE 
    ##    21   617
    

    为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些传统细胞类型标记。请注意,即使其中一些细胞类型仅由一个或两个细胞(如 epsilon 细胞)表示,我们仍然能够正确地对它们进行分类。

    table(pancreas.query$predicted.id)
    
    ## 
    ##             acinar activated_stellate              alpha               beta 
    ##                 22                 17                253                256 
    ##              delta             ductal        endothelial              gamma 
    ##                 22                 30                 12                 18 
    ##         macrophage               mast            schwann 
    ##                  1                  2                  5
    
    VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")
    
    image

    统一模式 UMAP 投影

    在 Seurat v4 中,我们还能够将查询集投影到参考集 UMAP 结构上。这可以通过计算参考UMAP模型,然后调用MapQuery()

    pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
    pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query, 
        refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")
    

    现在,我们可以同时可视化参考组和查询组细胞。

    p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3, 
        repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
    p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, 
        label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
    p1 + p2
    
    image.png

    相关文章

      网友评论

          本文标题:Seurat4.0系列教程15:映射和注释查询数据集

          本文链接:https://www.haomeiwen.com/subject/pgrbjltx.html