单细胞数据的分析是赋予杂乱无章的数据以生物学意义的过程。在百奥智汇的标准分析中,研究者可以通过降维聚类、差异表达分析、富集分析来阐释数据所蕴含的基本生物学意义。但对于有个性化和深度分析需求的研究,仍需进一步挖掘数据以解释特定的生物学现象及其背后的机制。
百奥智汇高级分析为研究者们提供了各种深度分析的方法。在标准分析中所有分析内容基础上,依托团队的生物信息技术优势,我们将提供丰富的、适用于各领域的、国际前沿的生物信息学工具,助力研究者探索单细胞组学数据的生物学内涵。与标准分析不同,高级分析将与研究者产生更多的互动,在研究者的指引下进行给定生物学或临床问题的研究,识别罕见细胞亚群、刻画细胞谱系、推断细胞时序发育和空间分布、以及探索细胞间相互作用等等。本项服务除提供数据文件和多媒体报告外,增加交互式内容,帮助研究者获得论文发表级的图表。
接下来,本文将对高级分析所特有的内容进行介绍。
图1 百奥智汇高级版分析流程深度分析项目
百奥智汇高级分析中独有的深度分析项目主要包括富集分析(GSEA/GSVA)、拟时分析、细胞间相互作用分析等针对转录组数据进行的分析方法,还包括可应用于单细胞免疫组库数据的STARTRAC分析,单细胞ATAC数据的染色质可及性分析等等。此外,高级版分析还支持将单细胞数据与空间转录组数据进行联合分析,基于反卷积分析和基因共表达等分析手段,研究者可以将单细胞所获得的信息,在空间位置上进行映射,从而获取更深层次的生物学信息。对于有特定研究需求的数据,也可以提供其它基于文献的特定分析方法。
富集分析(GSEA/GSVA):
GSEA和GSVA都是基于基因集开展的分析,研究者可以通过GO/KEGG/MSigDB等数据库获得感兴趣的基因集。GSEA常应用于Case/Control试验等样本分组相对不复杂的情况,用于评估一个预先定义的基因集的基因与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。而GSVA常用于表型(分组)复杂的大样本量的研究,以评估不同的代谢通路在不同样品间是否富集,从而挖掘感兴趣的基因集等等。这两种富集分析方法,在单细胞数据分析中,都可以将细胞的基因表达情况与其发挥的生物学功能或者通路进行联系,以预测或评估某一细胞亚群发生的功能变化。
图2 GSEA分析展示在CD8+ T细胞内和增殖相关的通路富集情况 图3 GSVA分析展示两种细胞亚群在各通路上的富集情况拟时序分析:
在生命的整个生长发育过程中,细胞都在不断地发生变化,如细胞分化、功能改变、状态转换等等。在这一过程中,细胞会经历转录重组,即其中一些基因会被沉默,而另一些则被激活。研究者在进行单细胞测序实验时,所获取的数据是细胞某一时刻的状态,这就像果树开花结果一样,有些细胞已经“结果”,而有些细胞还处于“开花”状态,有的还未“绽开”。拟时序分析的意义就是帮助研究者建立细胞“开花结果”的动态变化过程,以此探索细胞的发育状况或细胞转化的过程。
当前,比较常见的算法为PAGA、Monocle2/3和RNA velocity。其中PAGA和Monocle2/3都是基于基因表达的相似性的底层逻辑来进行分析的,而RNA velocity则是基于基因的降解趋势和合成趋势的底层逻辑。因此,通常情况下,采用不同底层逻辑的拟时序分析,在结果相一致的情况下,研究者可以获取更可靠的生物学内涵。
图4 基于PAGA算法的进化树图以查看细胞发育情况图5 基于Monocle2算法以查看细胞发育轨迹以及相关基因的表达
图6 基于RNA velocity算法以查看细胞发育方向及轨迹细胞间相互作用分析:
细胞之间传递信息方式可分为两种,一种是通过细胞表面受配体的相互作用进行,另一种方式则是通过细胞产生的细胞因子以作用于其他细胞。不论是细胞表面的受配体,亦或者是细胞产生的细胞因子,都离不开细胞内基因的表达,也正因如此,单细胞数据分析可以用于预测或模拟细胞之间的通讯情况,细胞间相互作用分析也就由此诞生。通过该分析,研究者可以预测细胞之间通过受配体对相互作用的关系以及作用的强弱。
目前用于该分析常见的算法有CellPhoneDB,CellChat和NicheNet等等。CellphoneDB是包含配体、受体及其相互作用的数据库,可以对细胞间的通讯分子进行全面、系统的分析,研究不同细胞类型之间的相互交流及通讯网络。NicheNet算法不仅考虑到了受体-配体相互作用以外,还包含了受体接受信号后,受体细胞所激活的相关通路。因此该算法可以预测来自一个或多个细胞中的配体影响了哪些细胞中的哪些基因的表达,以及相应的信号通路。研究者可以采用circos图、热图等多种展示形式预测配体与靶基因的关系。CellChat算法是以信号通路为基础单位,再结合通路相关的受配体对进行计算,分析细胞间交流状态。研究者可以通过该算法预测最直观的细胞间作用网络及作用强弱等信息。
图7 CellphoneDB观察细胞之间通过哪些受配体进行细胞通讯 图8 Nichenet算法底层原理展示 图9 Nichenet算法采用热图展示配体-靶基因关系 图10 Cellchat展示细胞间的通讯网络及作用强弱STARTRAC:
STARTRAC是由百奥智汇独家开发的算法,可以应用于单细胞免疫组库数据的分析。其原理是认为克隆型一致的细胞来源一致。通过该算法,研究者可以获取T/B细胞的组织分布、扩增情况、迁移性和状态变化等。
图11 STARTRAC算法分析T细胞的分布、扩增、迁移和状态变化染色质可及性分析:
当研究者采用scATAC-seq进行测序及分析时,百奥智汇高级分析支持对染色质可及性进行分析以确认基因在染色质上的开放区域和可及程度,从而预测或验证该基因转录的情况。
图12 染色质可及性分析两种基因在各个细胞亚群的开放区域和可及性程度空间&单细胞转录组数据整合分析:
百奥智汇提供空间转录组和单细胞数据的整合分析。研究者除了可以将差异表达的基因在空间位置上进行标注以外,还可以将单细胞数据中精细化分群注释的结果映射到空间里,以此获取细胞亚群在空间上的位置,从而获取更有意义的生物信息。
图13 空间转录组联合单细胞数据进行分析专业的数据解读&定期的沟通交流
百奥智汇的高级分析服务不仅提供单细胞多组学数据的深度分析解决方案,还提供科研思路的探讨和交流。在分析的过程中,百奥智汇将定期与研究者以会议的形式进行交流,提供对于结果的专业解读和相应的分析方向建议,以协助研究者挖掘出更多有意义的生物学内涵。此外,百奥智汇还可以根据研究者的需求,提供除常规分析方法外的各种其它分析服务,如应用最新算法、整合其它大型数据库进行综合分析等,尽可能地满足研究者对于分析结果的个性化需求。
结语
作为国内唯一一家10x genomics全球数据分析合作伙伴,百奥智汇团队拥有强大的生信分析能力,我们的高级版分析可为客户提供标准化、灵活、高效的单细胞多组学数据解决方案,协助客户了解感兴趣的分析方向,深度挖掘数据背后的生物学内涵,精准发现治疗和诊断靶标,满足客户的多层次研究需要。
参考文献:
Rao et al. Resolving the intertwining of inflammation and fibrosis in human heart failure at single-cell level. Basic Res Cardiol. 2021 Oct 3;116(1):55.
Zhang et al. Single-cell analyses reveal key immune cell subsets associated with response to PD-L1 blockade in triple-negative breast cancer. Cancer Cell. 2021 Dec 13;39(12):1578-1593.e8.
Zhang et al. Single-Cell Analyses Inform Mechanisms of Myeloid-Targeted Therapies in Colon Cancer. Cell. 2020 Apr 16;181(2):442-459.e29.
Browaeys et al. NicheNet: modeling intercellular communication by linking ligands to target genes. Nat Methods. 2020 Feb;17(2):159-162.
Jin et al. Inference and analysis of cell-cell communication using CellChat. Nat Commun. 2021 Feb 17;12(1):1088.
Zhang et al. Lineage tracking reveals dynamic relationships of T cells in colorectal cancer. Nature. 2018 Dec;564(7735):268-272.
Dries, R., Zhu, Q., Dong, R. et al. Giotto: a toolbox for integrative analysis and visualization of spatial expression data. Genome Biol 22, 78 (2021).
如果您对单细胞和空间转录组相关内容感兴趣,请关注百奥智汇公众号(Abiosciences),联系我们。
网友评论