单细胞RNA测序(scRNA-seq)能够测量单个细胞分辨时的基因表达。组织中数千个细胞的大规模转录分析成为可能的同时,大规模多路复用单细胞图谱分析使得复杂。在大多数情况下,单个细胞的真实身份是未知的,需要从转录数据推断。现有的方法通常是基于基因表达谱的相似性对细胞进行聚类,并使用平均表达水平对每个聚类内的所有细胞分配相同的身份。然而,scRNA-seq实验通常为每个细胞产生低覆盖率的测序数据,这阻碍了聚类过程。
我们引入了scMatch,它通过识别大型参考数据集中的最接近匹配来直接注释single cell 。我们使用这一策略注释各种单细胞数据集,并评估测序深度、相似性度量和参考数据集的影响。我们发现scMatch可以快速有力地注释单细胞,其准确性与另一个最近的细胞注释工具(SingleR)相当,但它更快,可以处理更大的参考数据集。我们演示了scMatch如何处理结合来自多个来源的数据的大型定制的参考基因表达谱,从而使研究人员能够精确地识别任何复杂组织中的细胞群。
scMatch是python写的,所以如果喜欢用python可以一试,在算法上并没有比SingleR的创新,也是算的相关性。
所有的基于参考数据集的方法都对参考数据集有着严重的依赖,所以如何构建好的参考数据集才是当前我们急需要思考的问题。
另一个主要的点在于,scMatch也参考了cell ontology,看来cell ontology将成为细胞注释的一个基准。
Rui Hou, Elena Denisenko, Alistair R R Forrest, scMatch: a single-cell gene expression profile annotation tool using reference datasets, Bioinformatics, Volume 35, Issue 22, 15 November 2019, Pages 4688–4695, https://doi.org/10.1093/bioinformatics/btz292
网友评论