单细胞ATAC-seq(scATAC-seq)能够测量单细胞水平的染色质开放信息,是用于研究基因调控和细胞异质性的重要方法之一。细胞注释是scATAC-seq数据分析中最重要的一步,然而,scATAC-seq数据由于其高维度、高稀疏度、高噪音的特点,使得细胞注释较为困难。大多数现有的注释方法基于多模态整合,容易受到批次效应的影响,并且可能会忽视稀有的细胞类型。
AtacAnnoR是近期发表在Briefings in Bioinformatics上的一种新颖的单细胞ATAC-seq的细胞注释工具。AtacAnnoR可以利用已标注的scRNA-seq数据作为参考,对scATAC-seq的细胞类型进行注释。工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR
方法介绍
AtacAnnoR方法流程图简单来说,AtacAnnoR主要利用两轮注释的方法,从而避免批次效应和跨模态细胞注释。
- 首先,scATAC-seq的peak计数矩阵被处理成两个矩阵,一个是基因活性矩阵(代表基因层面的信息),另一个是经过NMF降维的meta-program矩阵(代表整个基因组开放的信息)。
- 第一轮注释主要是在基因层面的注释。首先针对参考的scRNA-seq进行差异分析,寻找标记基因;然后,scATAC-seq基因活性矩阵中的每个细胞首先与scRNA-seq中的细胞类型比较,确定细胞的初始标签(candidate cell labels)。最后,利用找出的标记基因对初始标签进行验证,最后只保留高可信的部分细胞,称为种子细胞候选(seed cell candidates)。这些种子细胞候选接下来再作为训练样本,进入第二轮注释。
- 第二轮注释利用了整个基因组的信息。首先对种子细胞候选进行进一步的清洗,得到更高质量的种子细胞(准确率能达到95%左右)。然后利用这些最终的种子细胞,使用WKNN(加权最近邻)算法对剩下未标注的细胞进行标注。在第二轮注释中,由于训练样本本身就来自待注释的细胞群,因此不会受到批次效应的影响。
方法表现
作者设计了三种情况,系统地对AtacAnnoR的表现进行了测试。这三种情况分别是:
benchmark测试的三种情况- 细胞层面的双组学测序数据(cell-level dual omics sequencing)。即在同一个细胞内同时测量基因表达和染色质开放,这种情况可以作为金标准来验证scATAC-seq细胞注释工具的准确性。
- 样本层面的双组学测序数据(sample-level dual omics sequencing)。即同一份样本分成两份分别进行scRNA-seq和scATAC-seq。这种数据通常是研究人员为了自己的研究目的从而进行了特殊的实验设计,对双组学分别进行测序。
- 仅有待注释的scATAC-seq数据,使用其他来自公共数据库的scRNA-seq作为参考来进行细胞注释。这种情况是最普遍,同时也是难度最大的一种情况。因为大多数情况下并没有配套的scRNA-seq作为参考,公共数据库的scRNA-seq数据可能会与手上的scATAC-seq数据存在较大的批次效应。
作者将AtacAnnoR和Seurat v3(2019, Cell),GLUE(2022, Nature biotechnology),scJoint(2022, Nature biotechnology),Conos(2019, Nature methods), MAESTRO(2020, Genome biology)和CellWalkR(2021, Genome biology)进行了比较。
在第前两种情况下,AtacAnnoR的注释准确率和GLUE几乎处于并列第一的位置,而平衡准确率(balanced accuracy)要远好于其他方法,说明AtacAnnoR不止能对数量多的细胞类型准确注释,同时也能关注到细胞数量较少的亚群。作者对稀有细胞类型的准确率检查也说明可这一点:AtacAnnoR对稀有细胞注释的平均准确率达到了0.9,而第二名的GLUE只有0.71。Seurat v3和scJoint是表现也还不错的方法,但Seurat在细胞比例极端不平衡的数据集上表现不佳,而scJoint的问题在于对稀有细胞类型的注释效果不佳。
前两种情况的AtacAnnoR与其他方法注释结果比较对于第三种情况,AtacAnnoR的优势更加明显,达到了0.91左右的准确率,而第二名的Seurat v3仅有0.75。在前两种情况表现很好的GLUE方法在地三种情况下仅达到了0.55的准确率。这说明其他方法受批次效应的影响较大,而AtacAnnoR几乎不受影响。
第三种情况的AtacAnnoR与其他方法注释结果比较最后,作者调查了其他方法失败的可能原因。作者发现,GLUE注释出的scATAC-seq的细胞比例与参考scRNA-seq的细胞比例有着非常高的相关性,Seurat v3也有部分相关性,这可能是因为他们都是首先对两个模态进行数据整合,然后再利用近邻细胞进行细胞注释。如果参考数据和待注释数据的细胞比例有较大差异,整合可能失败,从而导致细胞注释结果不准确。
参考
原文链接:https://doi.org/10.1093/bib/bbad268
工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR
网友评论