单细胞文献阅读003--14种批次去除算法的比较

作者: Hayley笔记 | 来源:发表于2021-06-01 16:22 被阅读0次

单细胞文献阅读003--14种批次去除算法的比较
单细胞小谈：Single-Cell Transcriptomic
单细胞数据整合分析——批次效应（batch effect）去除
Scissor:整合bulk+scRNA鉴定功能亚群
单细胞RNA-seq去除批次效应
Seurat的三种单细胞数据整合方法汇总（批次校正）2022-0
单细胞数据整合分析哪家强？
单细胞分析去除批次效应/整合数据
DiffusionMap R语言
去除批次效应

一. 研究背景

使用不同技术生成的大规模单细胞转录组dataset，批次效应特殊的系统变化对批次效应效果的去除和dataset成提出了挑战。随着scRNA-seq数据的持续增长，实现计算器资源的有效批次集成是至关重要的。在这里，作者对批次效应校正算法的基准进行了深入的研究，以确定最适合去除批次效应的算法。

二. 分析流程

三.结果解读

1.使用5个评估指标对十个dataset的14种整合方法进行全面测评

图1 基于10个数据集，使用5个评估指标对14个算法进行基准测试。作者使用t-SNE和UMAP可视化技术，结合kBET、LISI、ASW、ARI和DEG等基准度量来评估14种算法在保持细胞亚群分离准确性的同时进行批次集成的能力。所用的数据集涵盖了人和小鼠不同类型的细胞，如树突状细胞、胰腺细胞、视网膜细胞和外周血单核细胞(PBMCs)等。所使用的技术范围也很广，包括10x、SMART-seq、Drop-seq和SMARTer等。

表1.十四种批次效应校正算法描述

2.不同情形下对校正方法进行评估

2.1 情形一：不同的方法对同一细胞类型的批次校正

使用UMAP可视化技术对dataset2（小鼠细胞）进行的14种批次效应校正算法，并对校正结果进行定性评价。

图2. 每种算法下有两行图，第一行是依据细胞批次来着色，在第二行中是按细胞类型来着色。（下文后续的操作类似）

结果显示：Seurat 2,Seurat 3,Harmony和fastMNN等方法降维后亚群聚类情况较好。

使用ASW、ARI、LISI和kBET等四个评估指标对“dataset2”14种批次效应效应校正算法进行定量评估

结果显示，综合对批次集成和细胞亚群纯度的四项指标评估结果中，Harmony算法的排名都比较靠前。

使用UMAP可视化对dataset5（人外周血单个核细胞）进行的14种批次效应校正算法，并对校正结果进行定性评价。

图4结果显示： scGen、MMD-ResNet和LIGER的降维后亚群聚类情况较好。

使用4个评估指标对dataset5的14种批次效应校正算法进行定量评估

结果显示Harmony、Seurat 3、LIGER去批次效应结果较好。

小结：对于这两个dataset（人PBMCs和鼠细胞图谱），Harmony、Seurat 3和LIGER是首选的三种算法。

2.2 情形二:每个批次的细胞类型不完全相同

利用UMAP对dataset1（人树突状细胞）的14种批次效应校正算法进行评估

dataset1在不同的批次中存在两个高度相似的细胞类型。

对可视化图的检验表明，大多数算法可以将两个批次的细胞混合在一起。不过，limma使两个批次的细胞簇接近，但没有实现混合，而MMD-ResNet和BBKNN无法混合常见类型的细胞簇。

使用4个评估指标对dataset1的14种批次效应效应校正算法进行定量评估

结果显示：对于dataset1，综合四项指标，fastMNN是最优的算法，其次是LIGER和scMerge。

使用UMAP对dataset6的14种批次效应校正算法进行评估

dataset6只包含两个细胞类型

结果显示scGen、scMerge和BBKNN的降维聚类效果较好。

使用4个评估指标对dataset6的14种批次效应效果校正算法进行定量评估

综合4个评价指标来看，Harmony是最优算法，其次是Scanorama和scGen。

使用UMAP对dataset7（小鼠视网膜细胞）的14种批次效应校正算法进行定量评价

dataset7的不同批次中，细胞类型很不均匀。

结果显示：ComBat和limma处理后的降维聚类效果较优。

使用ASW、ARI、LISI和kBET四个评估指标对dataset7的14种批次效应评估

结果显示LIGER是此次最优的算法，其次是MNN Correct和scMerge。

利用UMAP可视化技术对dataset10（小鼠造血干细胞和祖细胞）的14种批次效应校正算法进行定量评价

结果显示：Seurat 2、Seurat 3、Harmony、Scanorama和LIGER处理的降维聚类效果较优。

使用ASW、ARILISI和kBET四个评估指标对dataset10的14种批次效应校正算法进行定量评估

综合四个指标来看，Harmony、Scanorama和LIGER是该dataset的较优算法。

小结：

在情形二中，作者在四个不同的dataset上评估了14种批次效应校正算法。

虽然没有一种算法对所有dataset都是最优的，但LIGER是dataset1,7,10的较优算法，而scMerge在dataset1,6,7中排名第三。Harmony在dataset6和10中排名第一，而Scanorama在dataset6和10中排名第二。

基于这些结果，LIGER是这个情形的较优算法。

2.3 情形三：存在多个批次（测试了多个批次下的批次效应校正能力）

使用UMAP可视化技术对dataset4（人胰腺细胞）的14种批次效应校正算法进行定性评价

dataset4的人胰腺细胞包括五个批次

结果显示：Seurat 3、Harmony、scGen和LIGER处理后的降维聚类效果更优。

使用ASW、ARI、LISI和kBET四个评估指标对dataset4的14种批次效应效应校正算法进行定量评估

综合四项指标，Seurat 3是较优的算法，其次是scGen和scMerge。

情形2中分析dataset6（也包括了两个以上的批次）中整合效果较好的前几名依次是Harmony、Scanorama、scGen和scMerge。

⚠️所以综合dataset4和6的评估情况来看，作者给出的建议是：

对于已标记细胞类型的dataset，建议使用scGen；

对于未标记细胞类型的dataset，推荐使用Seurat 3和Harmony。

2.4 情形四：处理的数据集很大（在两个大dataset上测试这些算法）

用UMAP可视化技术对dataset8（小鼠大脑）的14种批次效应校正算法进行定量评价

结果显示：只有LIGER在实现分批混合的同时，保持了较好的细胞类型分离。

使用ASW、ARI、iLISI和kBET四个评估指标对dataset8的14种批次效应效应校正算法进行定量评估

综合四项指标显示：最优的是Seurat 3，其次是scGen和Seurat 2。

使用UMAP可视化技术对dataset9（人类细胞图谱）的14种批次效应校正算法进行定量评价

dataset9由两个数据批次组成，每个数据批次来自不同的组织。由于缺乏细胞类型信息，只能评估批次混合能力。

除了scMerge、limma和Scanorama，大多数算法都能够均匀混合批次。

图19.使用ASW、ARI、LISI和kBET四种评估指标对dataset9的14种批次效应效应校正算法进行定量评估

综合四项指标，排名前三的算法依次是LIGER、ZINB-WaVE和MMD-ResNet。

因此LIGER、ZINB-WaVE和MMD-ResNet这三种算法都被推荐用于大型的dataset。

2.5 情形五：DEG评估

利用模拟dataset和差异基因表达分析评价八种批次效应校正算法

图20A：作者按所示的DEG分析工作流程，对8个算法进行了评估。
使用Splatter包生成6组具有预定义批次效应效果和差异基因表达谱的模拟数据。
使用Seurat包对校正后的数据进行差异基因表达分析。
批次效应校正的矩阵中识别的差异表达基因(DEGs)与ground truth DEGs进行比较，并计算精度、Recall和F-score等指标。

图20B：为图20A中用到的6个模拟dataset，并对drop-out值和批次的情况作了展示。

图20C：计算了上调和下调基因的F-score。根据F-score，MNN Correct，ZINB-WaVE，ComBat和scMerge是表现最好的方法。

简单来说，若想获得一个用于下游分析批次效应校正矩阵的话，ComBat、MNN Correct、ZINB-WaVE和scMerge是作者推荐的算法。

3. 整合上述分析结果

十四种批次效应校正算法的有效性和效率

图21A：根据ASW、ARI、LISI和kBET指标对算法进行评估，然后使用秩和算法对所有指标进行排序。
山脊线的高度表示不同dataset的rank和score，rank和score越低表示性能越好。即出现在底部的Harmony、LIGER和Seurat 3是总体得分最高的三种算法。

图21B：对于dataset8的十四种算法的内存使用情况。

图21C：展示了14种算法处理时需要的时间。

小结

本文作者基于10个人和鼠的dataset，使用t-SNE和UMAP可视化技术，结合kBET、LISI、ASW、ARI和DEG等基准度量，来评估对14种去批次效应算法的批次效应校正结果。

不同情形下推荐的去批次效应算法总结：

情形	推荐的去批次效应算法
不同的技术处理下相同细胞类型的批次	Harmony、Seurat 3、LIGER
每个批次的细胞类型不完全相同	LIGER、Harmony
有多个批次	Harmony、Scanorama、scGen、scMerge
处理的数据集很大	LIGER、ZINB-WaVE、MMD-ResNet
用于下游分析批次效应校正矩阵	ComBat、MNN Correct、ZINB-WaVE、scMerge
综合以上	Harmony、LIGER和Seurat 3

单细胞文献阅读003--14种批次去除算法的比较
一. 研究背景使用不同技术生成的大规模单细胞转录组dataset，批次效应特殊的系统变化对批次效应效果的去除和d...
单细胞小谈：Single-Cell Transcriptomic
前言前期单细胞文献阅读：单细胞好文1--Tracing tumorigenesis in a solid tum...
单细胞数据整合分析——批次效应（batch effect）去除
在单细胞分析当中，经常会遇到整合分析的问题，即去除多样本数据之间的批次效应（batch effect），那么什么是...
Scissor:整合bulk+scRNA鉴定功能亚群
前言关注生信宝库时间比较久的小伙伴会发现，我们除了更新免疫相关的推文外，最多的就是单细胞研究相关的算法的文献解读...
单细胞RNA-seq去除批次效应
这是一篇2018年发表在NBT上的文章，讲述的是两套单细胞数据如何去除批次效应文章链接：前言由于不同的实验室...
Seurat的三种单细胞数据整合方法汇总（批次校正）2022-0
关键词批次效应批次校正单细胞数据整合适用背景单细胞数据由于实验平台或样本等原因会造成不同数据集之间存在批...
单细胞数据整合分析哪家强？
简介目前单细胞数据分析有不少的挑战，比如稀疏矩阵，超高维度数据降维，批次效应校正，聚类算法的选择，多组学数据...
单细胞分析去除批次效应/整合数据
上一篇已经讲解了Seurat标准流程，推文的最后，注意到了不同样本之间的表达数据是存在批次效应的，就像下图这样，有...
DiffusionMap R语言
diffusionmap在文献之中比较多见 Diffusion Map在单细胞中的应用 - 简书 (jianshu...
去除批次效应
我需要把多个数据集的数据合到一起怎么办？直接inner_join()或者cbind()就可以拿来用吗？当然不行！进...