文献标题:Scrublet: Computational Identification of Cell Doublets in Single-Cell Transcriptomic Data
发表时间:April 03, 2019
发表杂志:Cell Systems(IF=8.673)
原文链接:https://doi.org/10.1016/j.cels.2018.11.005
推文作者:李雨晨
摘要
单细胞转录组测序方法可能导致2个或以上的细胞共用一个barcode,形成doublets或multiplets,进而表现出“杂交”(hybrid)的转录组特征。这些doublets可能干扰下游数据分析。作者开发了Scrublet工具,用来鉴定可能的doublets。Scrublet通过在给定数据中模拟doublets,建立最近领域(nearest neighbor)分类器来识别doublets,不需要先验知识或预先聚类。目前Scrublet在github上开源:http://github.com/AllonKleinLab/scrublet。
引言
在此之前,主要有两种简单的方法用来排除潜在的doublets:
- 去除检测到转录本数量(UMI)过高的细胞。通常效果不佳,因为它需要预先假设所有细胞含有的RNA量相似;
- 去除表达不同细胞类型marker基因的聚类。其缺点是需要大量生物学专业知识和对细胞类型的谨慎注释。
定义“内含的”(Embedded)和“新型的“(Neotypic)Multiplets
imageMultiplets对下游分析的影响,部分取决于它们是否来源于具有不同基因表达谱的细胞。作者因此定义了两种主要的multiplets相关错误:
- ”Embedded“:multiplets可能来源于转录特征相似的细胞,它们被聚类到一大群主导某特定细胞状态的singlets中,仅仅表现为基因表达定量和丰度的改变。如果这种误差发生率不高,对下游分析的影响应该很小;
- ”Neotypic“:multiplets可能源自转录特征不同的细胞,例如不同的细胞谱系、成熟度、空间定位、活化程度等。它们可能形成新的聚类分支,或不同聚类之间的”桥梁“,因此可能在数据推断时导致质变的错误。
在实际操作中,单个multiplet可能被分类为”embeded“或”neotypic“(或其他类型),但其与两类误差的相关程度取决于单细胞数据分析的方式。例如,某种降维方式可能无法区分出multiplets,进而指向”embedded“错误,而另一种降维方式可能成功区分multiplets,进而指向”Neotypic“错误。因此,针对特定的数据分析方法,有效区分neotypic multiplets应该具有可操作性。Scrublet正是为此而生。
Scrublet方法
Scrublet估计neotypic multiplets的比例,通过将随机抽样的单个细胞转录组进行线性结合,生成模拟的multiplets,用于鉴定和移除实际的multiplets。
Scrublet基于两个假设:
- 在给定数据所有观察到的单细胞转录组中,multiplets是相对小概率的事件;
- 所有造成multiplets的细胞状态同时也存在于数据的singlets中。
基于以上假设,模拟合成的doublets能够用来构建一个”诱捕“的k-nearest neighbor(KNN)分类器,用来鉴定doublets。
当预先知道doublets在全部数据中的期望比例时,分类器能输出某个给定细胞是doublet的后验似然性(posterior likelihood)。然而,doublets的比例难以预先得知。基于模拟doublets的分类器评分大部分是双峰分布,Scrublet据此使用阈值似然性来区分doublets。低分doublets可能提示其难以从singlets中区分,也即”embeded“,而高分doublets可能与singlets状态不同,即”neotypic“。
Scrublet输出以下结果:
- 预测的可检测到的doublet比例(A predicted "detectable doublet fraction")
- 每个细胞的doublet评分,也可解释成在该数据中,若给定doublet比例,则某个细胞是doublet的后验似然性
- doublet评分的标准误
- 每个细胞是否neotypic doublet的二分类标签(True or false)。如果期望doublet比例是 ,那么整个数据中neotypic doublets的比例就是 ,而 则是无法检测到的embedded doublets。
在合成模拟的doublets后,Scrublet利用主成分分析(principal-component analysis,PCA)降维,再构建kNN分类器,不需要聚类数据或预先定义细胞marker基因,并且仅用几分钟就能完成上万个细胞的doublet鉴定。
结果
模拟数据
image作者首先在虚拟数据测试Scrublet的效果。分别进行了以下虚拟:
- 针对两个聚类的分离程度进行模拟,结果发现只有当两类细胞的区分度足够明显时,Scrublet才表现出接近99%的真阳性率;
- 针对聚类大小的不对称程度进行模拟,结果发现随着不对称性的增加,合成doublets向size大的聚类偏倚,会导致Scrublet无法识别的embedded doublets,然而对neotypic doublets的识别真阳性率仍然有90%;
- 针对聚类分支程度进行模拟,如果两个细胞谱系分叉越清晰,Scrublet就更容易识别分支间doublets
真实数据
人-鼠细胞混合样本
image根据ROC曲线结果,相比于单纯使用转录本数量指标来区分doublets,Scrublet的准确性明显更好。
来自不同捐献者个体的PBMC
image-20210130105650721单纯比较Total counts(TC)、Marker overlap(M)和Scurblet(S)策略,Scurblet显著优于另外两种策略。但如果将两种策略结合起来,例如S+TC,能进一步提高doublets分类的准确性。然而,这种联合方法可能有数据集依赖性,并且需要额外的参数调整两种策略的权重。
不同细胞浓度的PBMC数据
image相比于4k细胞的数据,8k数据中预测到的doublets比例几乎翻了一倍,这一点基本符合预期。另外,如果使用8k数据中的doublets预测结果来映射到4k数据,仍然能够将4k数据中的doublets区分出来(聚类1和2)。
造血干祖细胞数据
imageScrublet能够识别出在不同谱系间形成”桥梁“的doublets,然而需要辅以人工注释才能识别出巨噬细胞-成红细胞doublets。
讨论
Scrublet的效果就不赘述了。基于其底层的假设,Scrublet仍然存在一些不足和限制:
- 如果形成doublets的某种细胞类型没有包括在数据中,Scrublet就不能检测到这种特定的doublets。也就是说,数据本身需要较充分地代表样本中的细胞异质性;
- Scrublet只能识别出neotypic doublets,而难以识别出包含在主要细胞聚类内部的embedded doublets。然而,作者认为embeded doublets对下游分析的影响较小,检测不到也不要紧。换句话说,如果某些doublets已经可以显著影响下游的聚类分析,那么它通常是形成了不同于任何singlets的转录特征,理应能被Scrublet的算法识别出来;
- 根据github的教程,作者不推荐在合并数据集中使用Scrublet,而是应该在各个文库中分别使用Scrublet来去除doublets。
单细胞测序发展至今,已经有多种检测doublets的生信工具被开发出来。其中大多数工具的基础都是利用原数据合成模拟的doublets,将其作为已知参考来鉴别真实数据中的doublets,并且大多强调在单个文库内而非合并的数据集中使用doublet分类工具。然而,Scrublet这篇文章提到将8k PBMC数据的结果映射到4k PBMC数据,进而实现跨数据鉴定doublets;此外,联合诸如UMI总数、细胞类型marker等指标,比起单纯利用合成doublets作为参考进行分类,其准确性能进一步提升。这些都是doublet classifier未来可以改进的方向。事实上,在 Decoding human fetal liver haematopoiesis 这篇文章的某个早期版本中,作者就使用了scrublet先鉴定出明显的doublets,再利用这些doublets结合支持向量机(SVM)来鉴定更多潜在的doublets,详见https://github.com/haniffalab/scRNA-seq_analysis。可见多种方法联合确实是不错的思路。
网友评论