Scrublet：鉴定单细胞转录组中的doublets

作者: Yuchen_Li | 来源:发表于2021-01-31 18:37 被阅读0次

文献标题：Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data

发表时间：April 03, 2019

发表杂志：Cell Systems（IF=8.673）

原文链接：https://doi.org/10.1016/j.cels.2018.11.005

推文作者：李雨晨

摘要

单细胞转录组测序方法可能导致2个或以上的细胞共用一个barcode，形成doublets或multiplets，进而表现出“杂交”（hybrid）的转录组特征。这些doublets可能干扰下游数据分析。作者开发了Scrublet工具，用来鉴定可能的doublets。Scrublet通过在给定数据中模拟doublets，建立最近领域（nearest neighbor）分类器来识别doublets，不需要先验知识或预先聚类。目前Scrublet在github上开源：http://github.com/AllonKleinLab/scrublet。

引言

在此之前，主要有两种简单的方法用来排除潜在的doublets：

去除检测到转录本数量（UMI）过高的细胞。通常效果不佳，因为它需要预先假设所有细胞含有的RNA量相似；
去除表达不同细胞类型marker基因的聚类。其缺点是需要大量生物学专业知识和对细胞类型的谨慎注释。

定义“内含的”（Embedded）和“新型的“（Neotypic）Multiplets

image

Multiplets对下游分析的影响，部分取决于它们是否来源于具有不同基因表达谱的细胞。作者因此定义了两种主要的multiplets相关错误：

”Embedded“：multiplets可能来源于转录特征相似的细胞，它们被聚类到一大群主导某特定细胞状态的singlets中，仅仅表现为基因表达定量和丰度的改变。如果这种误差发生率不高，对下游分析的影响应该很小；
”Neotypic“：multiplets可能源自转录特征不同的细胞，例如不同的细胞谱系、成熟度、空间定位、活化程度等。它们可能形成新的聚类分支，或不同聚类之间的”桥梁“，因此可能在数据推断时导致质变的错误。

在实际操作中，单个multiplet可能被分类为”embeded“或”neotypic“（或其他类型），但其与两类误差的相关程度取决于单细胞数据分析的方式。例如，某种降维方式可能无法区分出multiplets，进而指向”embedded“错误，而另一种降维方式可能成功区分multiplets，进而指向”Neotypic“错误。因此，针对特定的数据分析方法，有效区分neotypic multiplets应该具有可操作性。Scrublet正是为此而生。

Scrublet方法

Scrublet估计neotypic multiplets的比例，通过将随机抽样的单个细胞转录组进行线性结合，生成模拟的multiplets，用于鉴定和移除实际的multiplets。

Scrublet基于两个假设：

在给定数据所有观察到的单细胞转录组中，multiplets是相对小概率的事件；
所有造成multiplets的细胞状态同时也存在于数据的singlets中。

基于以上假设，模拟合成的doublets能够用来构建一个”诱捕“的k-nearest neighbor（KNN）分类器，用来鉴定doublets。

当预先知道doublets在全部数据中的期望比例时，分类器能输出某个给定细胞是doublet的后验似然性（posterior likelihood）。然而，doublets的比例难以预先得知。基于模拟doublets的分类器评分大部分是双峰分布，Scrublet据此使用阈值似然性来区分doublets。低分doublets可能提示其难以从singlets中区分，也即”embeded“，而高分doublets可能与singlets状态不同，即”neotypic“。

Scrublet输出以下结果：

预测的可检测到的doublet比例（A predicted "detectable doublet fraction"） $\phi_{D}$
每个细胞的doublet评分，也可解释成在该数据中，若给定doublet比例，则某个细胞是doublet的后验似然性
doublet评分的标准误
每个细胞是否neotypic doublet的二分类标签（True or false）。如果期望doublet比例是 $\hat \rho$ ，那么整个数据中neotypic doublets的比例就是 $\hat\rho\cdot\phi_{D}$ ，而 $\hat\rho\cdot(1-\phi_{D})$ 则是无法检测到的embedded doublets。

在合成模拟的doublets后，Scrublet利用主成分分析（principal-component analysis，PCA）降维，再构建kNN分类器，不需要聚类数据或预先定义细胞marker基因，并且仅用几分钟就能完成上万个细胞的doublet鉴定。

结果

模拟数据

image

作者首先在虚拟数据测试Scrublet的效果。分别进行了以下虚拟：

针对两个聚类的分离程度进行模拟，结果发现只有当两类细胞的区分度足够明显时，Scrublet才表现出接近99%的真阳性率；
针对聚类大小的不对称程度进行模拟，结果发现随着不对称性的增加，合成doublets向size大的聚类偏倚，会导致Scrublet无法识别的embedded doublets，然而对neotypic doublets的识别真阳性率仍然有90%；
针对聚类分支程度进行模拟，如果两个细胞谱系分叉越清晰，Scrublet就更容易识别分支间doublets

真实数据

人-鼠细胞混合样本

image

根据ROC曲线结果，相比于单纯使用转录本数量指标来区分doublets，Scrublet的准确性明显更好。

来自不同捐献者个体的PBMC

image-20210130105650721

单纯比较Total counts（TC）、Marker overlap（M）和Scurblet（S）策略，Scurblet显著优于另外两种策略。但如果将两种策略结合起来，例如S+TC，能进一步提高doublets分类的准确性。然而，这种联合方法可能有数据集依赖性，并且需要额外的参数调整两种策略的权重。

不同细胞浓度的PBMC数据

image

相比于4k细胞的数据，8k数据中预测到的doublets比例几乎翻了一倍，这一点基本符合预期。另外，如果使用8k数据中的doublets预测结果来映射到4k数据，仍然能够将4k数据中的doublets区分出来（聚类1和2）。

造血干祖细胞数据

image

Scrublet能够识别出在不同谱系间形成”桥梁“的doublets，然而需要辅以人工注释才能识别出巨噬细胞-成红细胞doublets。

讨论

Scrublet的效果就不赘述了。基于其底层的假设，Scrublet仍然存在一些不足和限制：

如果形成doublets的某种细胞类型没有包括在数据中，Scrublet就不能检测到这种特定的doublets。也就是说，数据本身需要较充分地代表样本中的细胞异质性；
Scrublet只能识别出neotypic doublets，而难以识别出包含在主要细胞聚类内部的embedded doublets。然而，作者认为embeded doublets对下游分析的影响较小，检测不到也不要紧。换句话说，如果某些doublets已经可以显著影响下游的聚类分析，那么它通常是形成了不同于任何singlets的转录特征，理应能被Scrublet的算法识别出来；
根据github的教程，作者不推荐在合并数据集中使用Scrublet，而是应该在各个文库中分别使用Scrublet来去除doublets。

单细胞测序发展至今，已经有多种检测doublets的生信工具被开发出来。其中大多数工具的基础都是利用原数据合成模拟的doublets，将其作为已知参考来鉴别真实数据中的doublets，并且大多强调在单个文库内而非合并的数据集中使用doublet分类工具。然而，Scrublet这篇文章提到将8k PBMC数据的结果映射到4k PBMC数据，进而实现跨数据鉴定doublets；此外，联合诸如UMI总数、细胞类型marker等指标，比起单纯利用合成doublets作为参考进行分类，其准确性能进一步提升。这些都是doublet classifier未来可以改进的方向。事实上，在 Decoding human fetal liver haematopoiesis 这篇文章的某个早期版本中，作者就使用了scrublet先鉴定出明显的doublets，再利用这些doublets结合支持向量机（SVM）来鉴定更多潜在的doublets，详见https://github.com/haniffalab/scRNA-seq_analysis。可见多种方法联合确实是不错的思路。

网友评论

单细胞测序技术

本文标题：Scrublet：鉴定单细胞转录组中的doublets

本文链接：https://www.haomeiwen.com/subject/ogvrtltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrublet：鉴定单细胞转录组中的doublets

摘要

引言

定义“内含的”（Embedded）和“新型的“（Neotypic）Multiplets

Scrublet方法

结果

模拟数据

真实数据

人-鼠细胞混合样本

来自不同捐献者个体的PBMC

不同细胞浓度的PBMC数据

造血干祖细胞数据

讨论

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

单细胞测序技术