2021-06-29 4、Seurat多组样本数据合并

作者: 不学无数YD | 来源:发表于2021-07-07 10:11 被阅读0次

2021-06-29 4、Seurat多组样本数据合并
2022-01-17 多个样本单细胞分析流程
scRNA-使用sctransform去除批次效应
单细胞笔记6-Seurat v4新特性
多样本分析流程1
sc-RAN-seq 数据分析||Seurat新版教程: Int
单细胞空间转录分析之Scanpy-多样本整合
pandas _合并 concat
要解决问题2022.04.05
单细胞多样本整合-GSE162631

参考原文https://www.jianshu.com/p/29bccd5178db

scRNA数据校正批次效应的算法有很多：MNN, CCA+MNN, Harmony, Scanorama, scMerge等，本文推荐发表在Cell上的CCA+MNN方法，通过Seurat包就可以实现。Seurat数据整合功能简介Seurat早期版本整合数据的核心算法是CCA，文章发表在2018年的nature biotechnology，作者是Seurat的开发者Andrew Butler。同年Haghverdi等人开发了MNN算法校正批次效应，文章也发表在了nature biotechnology。2019年Andrew等人将CCA与MNN算法结合起来，并参考SNN算法的理念设计了“锚点”评分体系，使Seurat整合数据更强大更稳健。它不仅可以校正实验的批次效应，还能跨平台整合数据，例如将10x单细胞数据、BD单细胞数据和SMART单细胞数据整合在一起；也能整合单细胞多组学数据，例如将单细胞ATAC、空间转录组与单细胞转录组数据整合在一起。

多样本数据的合并与校正批次效应

Seurat整合流程与原理

1、使用CCA分析将两个数据集降维到同一个低维空间，因为CCA降维之后的空间距离不是相似性而是相关性，所以相同类型与状态的细胞可以克服技术偏倚重叠在一起。
2、CCA降维之后细胞在低维空间有了可以度量的“距离”，MNN(mutual nearest neighbor)算法以此找到两个数据集之间互相“距离”最近的细胞，Seurat将这些相互最近邻细胞称为“锚点细胞”。

深究技术细节的朋友可以参阅原文：Tim S, Andrew Butler, Paul Hoffman , et al. Comprehensive integration of single cell data[J].Cell,2019.获取数据集
本专题的数据来自Immune Landscape of Viral- and Carcinogen-Driven Head and Neck Cancer，数据集GEO编号：GSE139324。

多样本数据的合并的方法：

library(Seurat)
library(tidyverse)
library(patchwork)
dir.create('cluster1')
dir.create('cluster2')
dir.create('cluster3')
set.seed(123)  #设置随机数种子，使结果可重复
##==合并数据集==##
##使用目录向量合并
dir = c('data/GSE139324_HNC/GSM4138110', 
        'data/GSE139324_HNC/GSM4138111',
        'data/GSE139324_HNC/GSM4138128',
        'data/GSE139324_HNC/GSM4138129',
        'data/GSE139324_HNC/GSM4138148',
        'data/GSE139324_HNC/GSM4138149',
        'data/GSE139324_HNC/GSM4138162',
        'data/GSE139324_HNC/GSM4138163',
        'data/GSE139324_HNC/GSM4138168',
        'data/GSE139324_HNC/GSM4138169')
names(dir) = c('HNC01PBMC', 'HNC01TIL', 'HNC10PBMC', 'HNC10TIL', 'HNC20PBMC', 
               'HNC20TIL', 'PBMC1', 'PBMC2', 'Tonsil1', 'Tonsil2')
counts <- Read10X(data.dir = dir)
scRNA1 = CreateSeuratObject(counts, min.cells=1)
dim(scRNA1)   #查看基因数和细胞总数
#[1] 23603 19750 
table(scRNA1@meta.data$orig.ident)  #查看每个样本的细胞数
#HNC01PBMC  HNC01TIL HNC10PBMC  HNC10TIL HNC20PBMC  HNC20TIL     PBMC1     PBMC2   Tonsil1   Tonsil2 
#     1725      1298      1750      1384      1530      1148      2445      2436      3325      2709

#使用merge函数合并seurat对象
scRNAlist <- list()
#以下代码会把每个样本的数据创建一个seurat对象，并存放到列表scRNAlist里
for(i in 1:length(dir)){
counts <- Read10X(data.dir = dir[i])
scRNAlist[[i]] <- CreateSeuratObject(counts, min.cells=1)
}
#使用merge函数讲10个seurat对象合并成一个seurat对象
scRNA2 <- merge(scRNAlist[[1]], y=c(scRNAlist[[2]], scRNAlist[[3]], 
                scRNAlist[[4]], scRNAlist[[5]], scRNAlist[[6]], scRNAlist[[7]], 
                scRNAlist[[8]], scRNAlist[[9]], scRNAlist[[10]]))
#dim(scRNA2)
[1] 23603 19750
table(scRNA2@meta.data$orig.ident)
#HNC01PBMC  HNC01TIL HNC10PBMC  HNC10TIL HNC20PBMC  HNC20TIL     PBMC1     PBMC2   Tonsil1   Tonsil2 
#     1725      1298      1750      1384      1530      1148      2445      2436      3325      2709