美文网首页
单细胞笔记19-scATAC-seq的细胞注释工具AtacAnn

单细胞笔记19-scATAC-seq的细胞注释工具AtacAnn

作者: 江湾青年 | 来源:发表于2023-07-29 17:50 被阅读0次

单细胞ATAC-seq(scATAC-seq)能够测量单细胞水平的染色质开放信息,是用于研究基因调控和细胞异质性的重要方法之一。细胞注释是scATAC-seq数据分析中最重要的一步,然而,scATAC-seq数据由于其高维度、高稀疏度、高噪音的特点,使得细胞注释较为困难。大多数现有的注释方法基于多模态整合,容易受到批次效应的影响,并且可能会忽视稀有的细胞类型。

AtacAnnoR是近期发表在Briefings in Bioinformatics上的一种新颖的单细胞ATAC-seq的细胞注释工具。AtacAnnoR可以利用已标注的scRNA-seq数据作为参考,对scATAC-seq的细胞类型进行注释。工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

方法介绍

AtacAnnoR方法流程图

简单来说,AtacAnnoR主要利用两轮注释的方法,从而避免批次效应和跨模态细胞注释。

  • 首先,scATAC-seq的peak计数矩阵被处理成两个矩阵,一个是基因活性矩阵(代表基因层面的信息),另一个是经过NMF降维的meta-program矩阵(代表整个基因组开放的信息)。
  • 第一轮注释主要是在基因层面的注释。首先针对参考的scRNA-seq进行差异分析,寻找标记基因;然后,scATAC-seq基因活性矩阵中的每个细胞首先与scRNA-seq中的细胞类型比较,确定细胞的初始标签(candidate cell labels)。最后,利用找出的标记基因对初始标签进行验证,最后只保留高可信的部分细胞,称为种子细胞候选(seed cell candidates)。这些种子细胞候选接下来再作为训练样本,进入第二轮注释。
  • 第二轮注释利用了整个基因组的信息。首先对种子细胞候选进行进一步的清洗,得到更高质量的种子细胞(准确率能达到95%左右)。然后利用这些最终的种子细胞,使用WKNN(加权最近邻)算法对剩下未标注的细胞进行标注。在第二轮注释中,由于训练样本本身就来自待注释的细胞群,因此不会受到批次效应的影响。

方法表现

作者设计了三种情况,系统地对AtacAnnoR的表现进行了测试。这三种情况分别是:

benchmark测试的三种情况
  • 细胞层面的双组学测序数据(cell-level dual omics sequencing)。即在同一个细胞内同时测量基因表达和染色质开放,这种情况可以作为金标准来验证scATAC-seq细胞注释工具的准确性。
  • 样本层面的双组学测序数据(sample-level dual omics sequencing)。即同一份样本分成两份分别进行scRNA-seq和scATAC-seq。这种数据通常是研究人员为了自己的研究目的从而进行了特殊的实验设计,对双组学分别进行测序。
  • 仅有待注释的scATAC-seq数据,使用其他来自公共数据库的scRNA-seq作为参考来进行细胞注释。这种情况是最普遍,同时也是难度最大的一种情况。因为大多数情况下并没有配套的scRNA-seq作为参考,公共数据库的scRNA-seq数据可能会与手上的scATAC-seq数据存在较大的批次效应。

作者将AtacAnnoR和Seurat v3(2019, Cell),GLUE(2022, Nature biotechnology),scJoint(2022, Nature biotechnology),Conos(2019, Nature methods), MAESTRO(2020, Genome biology)和CellWalkR(2021, Genome biology)进行了比较。

在第前两种情况下,AtacAnnoR的注释准确率和GLUE几乎处于并列第一的位置,而平衡准确率(balanced accuracy)要远好于其他方法,说明AtacAnnoR不止能对数量多的细胞类型准确注释,同时也能关注到细胞数量较少的亚群。作者对稀有细胞类型的准确率检查也说明可这一点:AtacAnnoR对稀有细胞注释的平均准确率达到了0.9,而第二名的GLUE只有0.71。Seurat v3和scJoint是表现也还不错的方法,但Seurat在细胞比例极端不平衡的数据集上表现不佳,而scJoint的问题在于对稀有细胞类型的注释效果不佳。

前两种情况的AtacAnnoR与其他方法注释结果比较

对于第三种情况,AtacAnnoR的优势更加明显,达到了0.91左右的准确率,而第二名的Seurat v3仅有0.75。在前两种情况表现很好的GLUE方法在地三种情况下仅达到了0.55的准确率。这说明其他方法受批次效应的影响较大,而AtacAnnoR几乎不受影响。

第三种情况的AtacAnnoR与其他方法注释结果比较

最后,作者调查了其他方法失败的可能原因。作者发现,GLUE注释出的scATAC-seq的细胞比例与参考scRNA-seq的细胞比例有着非常高的相关性,Seurat v3也有部分相关性,这可能是因为他们都是首先对两个模态进行数据整合,然后再利用近邻细胞进行细胞注释。如果参考数据和待注释数据的细胞比例有较大差异,整合可能失败,从而导致细胞注释结果不准确。


参考

原文链接:https://doi.org/10.1093/bib/bbad268
工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

相关文章

  • 单细胞注释工具

    参考文章:原链接[https://db.cngb.org/science/ARTtoo174/]一般原则是识别单个...

  • 单细胞转录组细胞类型注释分析合集

    SingleR 使用SingleR包进行单细胞类型注释分析 Celaref 使用Celaref包进行单细胞类型注释...

  • sc-ATAC-seq细胞类型注释策略

    解释任何单细胞测序数据的起点都是对给定数据集中的细胞簇进行注释。由于缺乏专门设计的工具以及在单细胞ATAC-seq...

  • 单细胞细胞注释工具之CHETAH

    算法原理解析 (A)准备或构建一个参考单细胞数据集(reference scRNA-seq dataset),参考...

  • GSEA也能做细胞类型鉴定?

    单细胞数据挖掘||Garnett :基于监督学习的细胞注释算法 10X 单细胞细胞类型手动定义||Identify...

  • 单细胞辅助注释工具-SingleR

    很多做单细胞的研究者都提出过这个问题,是否有直接的功能能对单细胞直接进行注释,而不是繁琐的参看文献,搜索marke...

  • 单细胞自动注释工具汇总

    在单细胞研究中,最重要的一个环节就是细胞类型注释,这是一个极其考验研究者研究背景和精力的工作,但随着单细胞的研究越...

  • 空间转录组-如何手动选择区域

    通常的空间转录组分析是基于降维聚类划分cluster,再进行cluster细胞注释。或者使用反卷积工具与单细胞转录...

  • 单细胞-注释

    注释是很关键的一步,这几天先把注释完全搞懂。现在有几个问题需要解决: 1、搞清楚不同注释方法(手动、网站、用已发表...

  • Celaref | 单细胞测序细胞类型注释工具

    我导再也不用担心我不认识marker啦 我们在进行单细胞测序的时候,通常情况下是通过高变genes来辨别细胞类型(...

网友评论

      本文标题:单细胞笔记19-scATAC-seq的细胞注释工具AtacAnn

      本文链接:https://www.haomeiwen.com/subject/iwyprdtx.html