美文网首页单细胞测序
实用干货 | 一文帮你搞定单细胞测序各高级分析的区别(下),简单

实用干货 | 一文帮你搞定单细胞测序各高级分析的区别(下),简单

作者: 百奥益康 | 来源:发表于2023-11-13 10:12 被阅读0次

    小编经常会被问到,XXX个性化分析也是做差异基因分析、基因富集分析或这不是和标准分析的分析内容一样吗?那为什么还要做这个呢?

    今天呢,小编就跟大家好好聊一聊这些看似很像的分析到底有什么“玄机”。

     GO、KEGG、GSEA 分析

    GO数据库是分别从细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP)对基因产物进行了标准化描述。GO富集分析是对基因进行简单注释,进而了解差异基因富集在哪些生物学功能、途径或者细胞定位。

    所以GO是功能注释,即每个基因可能参与哪些pathway terms 或者 GO terms。GO分析得到的是一条条的线路(GO term),每一个线路里面有自己的基因集,且彼此之间没有任何联系。

    KEGG是网状的,是由前期研究发现的一条条的代谢通路组成的网状的结构,KEGG也有基因集,但更侧重于代谢通路的研究。KEGG是功能富集,即基因(或多个基因)可能显著的集中在哪些通路上的富集。类似的通路数据库有wikipathway,reactome等。

    GSEA背景:GO、KEGG只需要输入基因列表,只侧重于比较两组间的差异基因表达情况,集中关注少数几个显著变化的基因,这容易漏掉差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。另外这两种分析需要人为划定阈值来判断是否富集到某一通路,这就掺杂了很多人为的因素。这种一刀切的阈值,对于发现真正的生物学效应,许多时候是一种障碍。

    GSEA(基因集富集分析)数据:基于全部基因数据表达量数据进行分析,而且不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势进行分析,即使是没有先验经验。

    GSEA原理:根据基因在两种表型间(组间)的表达量差异进行排序,然后去和某一通路/功能的基因集比对,给每一基因打一个ES分数,ES分值的计算是这个基因在这个通路里面就算他一个正的分值,不在就是负的分值,数值的大小取决于基因与表型的相关性。最后会根据累计分布函数给每个通路打一个ES分数(即通路峰值),并且会详细列出每一个通路中基因、基因的排序、每个基因ES值等,并根据这些信息绘图,判断基因对表型的贡献。

    结果解读

    第一部分:最顶部的绿色折线为基因富集得分的折线图。纵轴为对应的ES分值, 在折线图中有个峰值,该峰值就是这个基因集的 ES值(即这个基因集对表型的贡献度),峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因,对应第二部分类似条形码的竖线。

    第二部分:类似条形码的部分,每条竖线对应该基因集下的一个基因。

    第三部分:为所有基因的rank值分布图,纵坐标为ranked list metric,即该基因FC值,红色为与第一个表型(MUT)正相关,在MUT中表达高,蓝色与第二个表型(WT)正相关,在WT中表达高。

    GSEA、GSVA分析

    GSVA分析背景:GSEA是用来判断其对表型的贡献的分析,但是应用场景通常局限于 Case-Control 型实验设计。对于表型(分组)复杂的大样本量研究,GSEA已不能满足对大量异质性样本多样化(如TCGA的多表型、多层次大队列研究)的分析需求,GSVA分析在此种情况下应运而生。

    GSVA(基因集变异分析):是基因集富集分析GSEA的扩展,不需要预先进行样本之间的差异分析,它依据表达矩阵就可以计算每个样本中特定基因集(比如某个通路)的变异分数。

    原理

    主要是通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的代谢通路在不同样品间是否富集。

    结果解读

    1.是样本的聚类,不同颜色表示不同处理;

    2.是基因集的聚类;

    3.是基因集的名称;

    4.是红蓝颜色表示该基因集在不同样本中的信号值高低,越红,信号值越高,越蓝,信号值越低;

    5.是为图例,是热图颜色的解释。

    拟时序分析(轨迹推断)和RNA速率

    拟时序分析和RNA速率都是揭示细胞发育轨迹,或是细胞亚型溯源,但是所用的数据和分析原理完全不同。

    拟时序分析基于时序相关基因表达相似性将细胞沿轨迹进行排序,来推断出细胞的分化轨迹或细胞亚型的演化过程。

    拟时序分析原理:根据每个细胞的时序相关基因的表达模式,在伪时间中对单个细胞进行排序,根据基因的表达状况把样本分成不同分化状态的细胞群(State),生成直观的谱系发育树,可以预测细胞的分化及发育轨迹。分化起点和终点需要根据细胞类型的轨迹分布及特征基因的表达变化来确认。这里的伪时间是一个抽象的分化单位:它只是一个细胞沿着轨迹起点到终点的最短距离。

    RNA速率通过区分未剪接的mRNA与成熟的剪接mRNA,可以近似地得到mRNA丰度的变化,获得基因特异性速度,得出可能的细胞状态变化,从而追溯细胞的起源和潜在的命运,RNA 速率分析不需要指定起点和终点。

    RNA速率原理:将测序结果与潜在的mRNA剪接动力学相联系,通过区分未剪接的mRNA 和剪接后的mRNA,可以近似地了解mRNA丰度(RNA 速度)的变化。然后,通过mRNA的速度组合可以用来估计单个细胞的未来状态。

    结果解读

    左图为拟时序分析结果展示,右图为RNA速率结果展示。箭头代表细胞分化方向,不同颜色代表不同细胞类型。

    CellphoneDB、CellChat细胞通讯分析

    CellphoneDB和CellChat只是细胞通讯分析的两种不同分析软件,分析原理基本一致,CellChat是最新发布的软件,在数据统计分析时更加全面,分析结果更加准确真实。

    CellPhoneDB 最早出现的细胞通讯软件,也是第一个系统整理出配受体数据库的软件,是基于细胞中的配受体基因表达量推测细胞间的通讯。

    原理:通过配体细胞亚群和受体亚群的配受体基因的平均表达量来推测细胞存在互作的可能性,即对应的配受体表达量越高,细胞间存在互作的可能性越高。通过置换检验来获得两类细胞互作的统计学显著性。

    CellChat 是2021年发布的细胞通讯软件,也是基于细胞中的配受体基因表达量推测细胞间的通讯,可以说是CellPhoneDB的升级版。CellChat在数据统计、分析和可视化上都做了改进,所以分析结果更加准确真实,分析内容更丰富。

    原理:基于基因表达数据,同时统计配受体基因、协同效应基因、抑制效应基因在对应细胞亚群平均表达量和亚群细胞占比来细胞通讯概率。通过扰动检验来检验两类细胞互作的显著性。

    结果解读

    图中的节点表示不同细胞类型,节点圆圈大小表示该种细胞类型的细胞数目的多少,线条粗细表示通讯强度,线条的颜色与配体细胞的颜色一致。

    相关文章

      网友评论

        本文标题:实用干货 | 一文帮你搞定单细胞测序各高级分析的区别(下),简单

        本文链接:https://www.haomeiwen.com/subject/ijcrwdtx.html