参考文章:原链接
一般原则是识别单个细胞或细胞簇中与已知细胞类型或状态的特征基因表达特征相匹配的基因表达信号(模式或特征);然后为细胞或细胞簇分配相应的标签,标签通常有一个相关的置信度得分。
一种是使用已知的标记基因,标记基因和细胞类型之间的已知关系可从数据库中获得,如SCSig、PanglaoDB和CellMarker,或从文献中手动获得。第二种方法是将需要注释的scRNA-seq数据("查询 "数据集)与现有的、类似的、经过专业注释的scRNA-seq数据集("参考 "数据集)进行比较,"参考 "数据集来源于GEO、单细胞表达图谱或细胞图谱项目等。
为了标记单个细胞,最可靠的基于标记的注释工具之一是半监督类别识别和分配(SCINA)。AUCell是另一种很好的基于标记的标记方法,可以对单个细胞或簇进行分类。为了标记整个聚类,基因集变异分析(GSVA)已被证明是快速可靠的。
scmap是基于参考数据集的自动细胞或细胞簇注释的最佳工具之一,它既能保证指定标签的准确性,又能避免对新细胞类型的错误标记。其他工具包括SingleCellNet和SingleR。
注意事项
细胞类型注释的质量受许多数据分析流程参数的影响,如数据过滤和数据质量设置,以及选择的聚类分辨率。scClustViz、Seurat和clustree等工具有助于选择适当的聚类分辨率。为了识别稀有细胞类型,在对细胞进行聚类之前,可能需要使用特征选择工具专门识别稀有细胞类型的标记(例如GiniClust85)。对于技术原因引入的“背景污染”可以使用SoupX(寻找细胞类型标记的非特异性表达)或CellBender(使用机器学习校正细胞表达谱)等方法来评估和校正。
参考文献
Ahn J, Heo S, Lee J, et al. Introduction to Single-Cell DNA Methylation Profiling Methods[J]. Biomolecules, 2021, 11(7): 1013.
网友评论