单细胞分析中的去批次问题-Seurat包IntegrateDat

作者: expgene | 来源:发表于2023-12-05 12:17 被阅读0次

单细胞多组学系列学习笔记汇总
Seurat使用教程（v3.0）
R变量索引 - 什么时候使用 @或$
实用干货 | 运用Seurat包做单细胞数据的合并分析
单细胞测序分析R包Seurat质量控制小提琴图QC VlnPlo
seurat对象处理
使用ggplot2优化Seurat绘图
cellchat-与其他单细胞分析工具的接口
单细胞实战2: Seurat+SingleR--从矩阵到细胞类型
2021-05-06 invalid class “Graph”

探序基因肿瘤研究院整理

在R种，假设要将A1.Seurat的seurat数据变量和A2.Seurat的放在一个列表中，则可以：

seurat_list <- list()

seurat_list[["A1"]] <- A1.Seurat

seurat_list[["A2"]] <- A2.Seurat

1. 先将各个样本的Seurat结构变成一个list格式，

例如：SeuratList <- list(P1T.Seurat,P2T.Seurat,P3T.Seurat)

AllBatch.anchors <- FindIntegrationAnchors(object.list = SeuratList, dims = 1:15,k.filter=80)

MerSeurat <- IntegrateData(anchorset = AllBatch.anchors, dims = 1:15)

MerSeurat <- RunPCA(object = MerSeurat , npcs = 30, verbose = FALSE)

MerSeurat <- RunUMAP(object = MerSeurat , reduction = "pca", dims = 1:15)

MerSeurat <- FindNeighbors(object = MerSeurat , reduction = "pca", dims = 1:15)

MerSeurat <- FindClusters(MerSeurat ,resolution = 1)#调分辨率

2. 将各个样本构成一个基因表达矩阵列表

例如，将各样本存到一个list中，变量名为：ifnb.list

library(Seurat)

load("innb.list.RData")

features <- SelectIntegrationFeatures(object.list = ifnb.list)

ifnb.list <- lapply(X = ifnb.list, FUN = function(x) {

x <- ScaleData(x, features = features, verbose = FALSE)

x <- RunPCA(x, features = features, verbose = FALSE)

})

immune.anchors <- FindIntegrationAnchors(object.list = ifnb.list, anchor.features = features)

immune.combined <- IntegrateData(anchorset = immune.anchors)

DefaultAssay(immune.combined) <- "integrated"

immune.combined <- ScaleData(immune.combined, verbose = FALSE)

immune.combined <- RunPCA(immune.combined, npcs = 30, verbose = FALSE)

immune.combined <- RunUMAP(immune.combined, reduction = "pca", dims = 1:15)

immune.combined <- FindNeighbors(immune.combined, reduction = "pca", dims = 1:15)

immune.combined <- FindClusters(immune.combined, resolution = 0.5)

save(immune.combined,file="AftRemBatch.RData")

查看immune.combine变量，在immune.combined@assays中，有RNA和integrated。immune.combined@assays$integrated@data，矩阵的基因数为2000，这些基因应该来自于步骤中挑选的features ，基因表达值有正有负。scale.data，也是只有2000个基因，基因表达值有正有负。counts为空。

假设运行FeaturePlot()查看基因表达分布，它默认选的是integrated中的data矩阵。

在seurat数据结构中，有个active.assay变量，里面内容为：integrated。active.ident变量存放的分群编号应该就是去批次后计算的分群。

3. 考察IntegrateData函数

IntegrateData(

anchorset,

new.assay.name = "integrated",

normalization.method = c("LogNormalize", "SCT"),

features = NULL,

features.to.integrate = NULL,

dims = 1:30,

k.weight = 100,

weight.reduction = NULL,