聚类算法广泛用于分析大型数据集,以将具有相似属性的个体聚类在一起。这在单细胞测序结果分析中尤为关键。合适的细胞聚类分群结果有助于细胞类型鉴定等下游数据分析工作。然而,聚类的算法多种多样,且算法中参数的改变都会影响最终的细胞分群结果。因此,在细胞聚类分析时需要方法帮助研究者找到具有生物学意义的聚类分群结果。这里介绍一种名为“clustree”的算法,以树状图形式展示不同聚类分辨率对细胞聚类分群的影响,并能显示细胞的移动轨迹,从而指导研究者们确定合适的分辨率参数,获得有生物学意义的细胞分群结果。
01 单细胞转录组clustree结果解读
单细胞转录组测序可以帮助研究者获得组织或体液中单个细胞的基因表达模式。而聚类算法可以将细胞按照表达模式的相似性进行聚类分群,不同细胞群之间的基因表达差异可以用于推断细胞的身份和功能。然而,通常情况下研究者并不知道细胞类型的数量,若分辨率较低,会导致一个细胞群中包含多种细胞类型,而分辨率过高又会导致过分群的情况出现。因此,决定使用哪种分辨率参数是单细胞转录组整个分析流程的关键。
用10x Genomics公司提供的PBMC单细胞转录组测序结果(包含2700个外周血单核细胞,包含一系列免疫细胞类型)进行Seurat分析,并用clustree展示分辨率从0到5的聚类树结果,如图1A所示。在聚类树结果中,每行代表在某个分辨率下的细胞聚类结果,而分辨率大小则用每个点的颜色表示。点的大小代表该cluster包含的细胞数目,细胞越多点越大。当分辨率增加时,细胞会按照箭头方向移动到新的cluster里,箭头的颜色代表沿箭头移动的细胞数目,通过图注可知箭头越接近黄色,则说明箭头包含的细胞数越多。此外,箭头具有不同的透明度,代表箭头中的细胞数与其指向cluster里细胞数的比值。比值越大,说明这个箭头对其指向cluster的重要性更高,箭头的透明度越小。而比值越小,说明这个箭头对其指向cluster的重要性更低,箭头的透明度越大,同时可以设置比值的阈值,隐藏低于阈值的箭头。
Fig.1 2700个PBMC细胞单细胞转录组数据集的聚类树(A)分辨率从0-1的Seurat聚类结果,0.1时得到4个主要分支,0.4时分支继续分裂。(B)分辨率从0到5,分辨率为5时看到很多透明箭头,说明此时的cluster结果不稳定。
02 如何利用clustree结果选择合适的分辨率
通常情况下,为了决定合适的聚类分辨率,可使用以下两种策略:
1.选择透明箭头出现较少的分辨率聚类结果
聚类算法得到的cluster数目随分辨率增加而增多,但当得到的cluster数目多于单细胞转录组结果实际存在的聚类数时,新的cluster会从已有的cluster中形成,许多cluster会在不同的分支中切换,出现较多的透明箭头,不稳定的cluster也可能出现后消失。通过查看哪些cluster是稳定的以及出现透明箭头的区域,我们可以推断出聚类树的哪些区域可能是真实的cluster或者是过度分群造成的。如图1B所示,当算法被迫产生比该数据集中可能真正存在的更多的cluster时,随着过度聚类的发生,可以看到更多的透明箭头和由多个上一层cluster形成的新cluster。这些区域是不稳定的,且这些新生成的cluster不太可能代表数据集中的真实cluster。
2.基于marker基因表达选择有生物学意义的分辨率聚类结果
基于先验知识可选用已知的marker基因来识别特定cluster的细胞类型,将基因表达信息叠加到聚类树上,获得新的聚类树,可指示何时形成包含纯细胞群的cluster。如图2所示,该聚类树是在图1A结果基础上增加marker基因的表达信息。CD19是B细胞的marker基因,在最右侧的分支中高表达。CD14是单核细胞的marker之一,其表达随着分辨率增大在某一个分支中高表达,暗示这条分支的cluster可能是这种细胞的纯群体。CD3D是T细胞的marker,在最左侧的分支中都有表达,当分辨率增加到0.7时出现两条细分支,且这两条分支中CCR7的表达存在明显差异,从而将记忆T细胞和初始T细胞区分开。通过添加已知的细胞类型marker基因,可以确定这些cluster是否具有生物学意义。
Fig.2 2700个PBMC细胞单细胞转录组数据集的聚类树,增添已知marker基因表达信息(A)CD19,识别B细胞;(B)CD14,显示单核细胞;(C)CD3D,T细胞marker基因;(D)CCR7,区分记忆和初始T细胞。
03 结语
单细胞转录组测序结果通常数据庞大且存在背景噪音,包含未知数量的细胞类型和聚类数。因此,clustree算法在指导单细胞转录组数据集聚类分群时的重要性不言而喻。该算法以聚类树的方式提供了包含多种信息的可视化结果,可以有效地评估cluster可靠性并鉴定其类型,为单细胞转录组的下游分析奠定基础。
参考文献:Zappia, Luke, and Alicia Oshlack. “Clustering trees: a visualization for evaluating clusterings at multiple resolutions.” GigaScience vol. 7,7 (2018): giy083.
网友评论