美文网首页
ScType--超快准狠的全自动scRNA-seq数据细胞类型注

ScType--超快准狠的全自动scRNA-seq数据细胞类型注

作者: 生信宝库 | 来源:发表于2023-09-14 07:00 被阅读0次

    前言

    对于scRNA-seq数据的解读,准确地注释细胞类型是揭示各种生物学过程的关键。在scRNA-seq数据的分析中,我们常常使用标记基因来手动鉴定scRNA-seq数据中的细胞类型,这一过程不仅耗时,而且容易犯错。今天,我们将为大家介绍一个强大的工具:scType。它能够迅速且准确地对scRNA-seq数据进行细胞类型的注释,同时具备区分恶性与非恶性细胞的能力。接下来,让我们先通过相关文献来深入了解这一工具。(ps:在后续的分享中,我们还将和大家探讨scType的代码实践部分)。


    主要内容

    首先,让我们来学习一下ScType是如何基于给定的scRNA-seq数据进行细胞类型注释的。ScType仅需要原始或预处理的单细胞转录组数据集作为输入,并提供了额外的质量控制和归一化步骤选项,接下来ScType会对scRNA-seq数据进行无监督细胞聚类并进行细胞注释,最后基于SNV(single-nucleotide variants)区分健康和恶性细胞。ScType的特异性评分确保了标记基因在簇间和细胞类型间均显示特异性,以较高的细胞亚群选择性进行准确的无监督细胞类型注释。图1d展示了作者使用ScType对人类肝脏细胞的scRNA-seq研究进行再分析,ScType自动识别了17个簇,并正确地将它们分配给原始研究中手工注释的11种与肝脏相关的细胞类型。此外,ScType能够自动区分两个关系密切的B细胞群体(幼稚B细胞和浆细胞),这在原始文献中未被区分(浆细胞不表达常见的B细胞标记物(如CD19和CD20),而表达CD138)。

    image.png

    在探讨了scType的高准确性与高分辨率优势后,作者进一步选择了6组scRNA-seq数据(其中4组来自人类,2组来自小鼠)测试了scType的准确性,并将scType与四种已经发表的细胞注释工具在准确性和运行时间上做了直接比较。从结果上看,scType表现出色,成功注释了73个细胞类型中的72个,实现了高达98.6%的准确率。这其中,有8种细胞类型原先被误标或标记不明确,而scType对它们进行了正确的重新注释。

    不过,scType在当前版本的数据库中缺少人类大脑胎儿细胞的特异标记,这导致它在注释人类大脑数据集时,没能自动识别这类细胞。但scType成功地鉴别了人类脑组织中的其他所有细胞类别,包括少突胶质细胞、星形胶质细胞、小胶质细胞、神经元、内皮细胞和少突胶质细胞前体细胞。值得注意的是,scType的准确性与scSorter确实非常接近,两者在所有数据集上都达到了很高的准确性。但scType在运行速度上比scSorter快了超过30倍。

    image.png

    接下来,作者考虑了scRNA-seq数据中会存在可能高达80%的drop out现象,这种数据丢失可能显著影响数据聚类和注释结果。因此,作者模拟了45组数据集,其中15组约50%的dropouts, 15组约65%的dropouts,15组约80%的dropouts。在模拟数据集中的比较结果显示,即使在数据丢失率达到80%的情况下,ScType的注释仍相对稳健,注释准确率仍然高于90%。此外,准确识别“未知”细胞类型是一个重要的问题。作者采用leave-one-cell-type-out的交叉验证方案来评估识别未知细胞组的准确性。具体来讲,作者在45个数据集中每次移除一种细胞类型的特定标记签名,然后使用所有方法执行细胞类型注释。结果表明,ScType和SCINA能够正确地指定大部分的未知细胞类型,分别是43/45(95.5%)和41/45(91.1%)。而scSorter只能在45个数据集中的22个中正确识别未知细胞类型,准确率为48.8%。

    ScType不仅利用阳性标记基因(那些预期在特定细胞类型中会有表达的基因)进行细胞类型注释,也使用阴性标记基因(那些不预期在特定细胞类型中有表达的基因),这帮助其精准地区分相似的细胞类型。在PBMC数据集中,阴性标记基因在区分初始T细胞和效应T细胞时发挥了关键作用,因为效应T细胞并不表达CCR7和SELL基因。而ScType数据库特别地为效应T细胞引入了CCR7和SELL基因作为阴性标记。当结合使用阳性和阴性标记时,ScType能够正确地区分出初始T细胞和记忆T细胞。但若仅依赖阳性标记,ScType会错误地将初始T细胞分类为效应T细胞。这个结果与原始研究的注释结果相吻合,突显了同时使用阳性和阴性标记能够提高细胞注释的准确性。

    image.png

    最后,作者展示了ScType如何识别样本中的健康和恶性细胞种群。ScType量化了样本中所有细胞中"癌症共识基因"中SNV高于中位SNV的细胞类型的百分比(ScType SNV得分)。结果显示,与被视为AML中的非恶性细胞种群(例如CD24+CD66+中性粒细胞和记忆CD+ T细胞)相比,CD34+原始体(HSC/MPP)细胞和CD34+干扰素诱导基因(ISG)+母细胞的SNV得分显著更高。ScType也引入了非整倍体作为鉴别正常和恶性细胞的额外依据。利用Bayesian分割方法CopyKAT,作者将大部分的CD2+CD66+中性粒细胞和记忆CD8+ T细胞标定为二倍体细胞,这意味着它们可能是非恶性的。通过综合SNV数据与非整倍体特点,ScType成功鉴别了AML患者样本中的健康和恶性细胞群体。此外,作者还基于癌症共识基因的共同SNV探究了各细胞类型间的相似性,发现非恶性细胞种群(如记忆CD8+ T细胞和CD24+CD66+中性粒细胞)间的SNV相似度很高,但与恶性细胞种群(如HSC/MPP和ISG+母细胞)几乎没有相似性。ScType还能借助CopyKAT从scRNA-seq数据中呈现出全基因组的拷贝数分布,进而发现大范围的拷贝数变异(CNAs),例如大片段染色体的增加或缺失。这些检测到的CNAs有助于解释某些细胞类型和子克隆之间在细胞表型,如凋亡能力或对药物的敏感性等方面的差异。

    image.png

    小结

    总的来说,ScType是一个与其他细胞注释工具相比有显著改进的工具。ScType完全根据其自身的数据库进行工作,该数据库包含了全面的人和小鼠细胞标记基因。与许多需要人工干预的计算方法相比,ScType采用完全数据驱动的方法,并一次性以完全无监督的方式注释细胞类型。ScType的独特之处在于它不仅使用阳性标记基因来注释细胞类型,还结合使用了阴性标记基因,以更准确地区分密切相关的细胞类型。此外,ScType还可以根据SNV和拷贝数变异区分癌症和非癌症细胞群体。

    今天的分享就到这里啦,让我们下期再会~

    [参考文献]

    Ianevski A, Giri AK, Aittokallio T. Fully-automated and ultra-fast cell-type identification using specific marker combinations from single-cell transcriptomic data. Nat Commun. 2022 Mar 10;13(1):1246. doi: 10.1038/s41467-022-28803-wIF: 16.6 Q1 . PMID: 35273156IF: 16.6 Q1 ; PMCID: PMC8913782IF: 16.6 Q1 .


    相关文章

      网友评论

          本文标题:ScType--超快准狠的全自动scRNA-seq数据细胞类型注

          本文链接:https://www.haomeiwen.com/subject/lpkmvdtx.html