美文网首页
SimplifyEnrichment:功能富集结果聚类去冗余和可

SimplifyEnrichment:功能富集结果聚类去冗余和可

作者: Bio小盼 | 来源:发表于2023-12-04 21:58 被阅读0次

文章简介

image.png

摘要

  • 功能富集分析是生信分析基础的方法,对揭示感兴趣基因参与的生物进程至关重要,但是富集结果又长又冗余 很难总结
  • 目前简化富集分析结果的方法是通过聚类,但是在不同cluster之间仍有冗余,cluster内部不能保留一致
  • 作者提出了二分法聚类,cluster内一致性较好,cluster间互斥。这种二分法聚类 如果依据词义相似性结果较好,如果基于 gene overlap表现出较差的一致性


    image.png

背景介绍

  • 现有针对富集结果进行聚类方法大体有三种:1. 基于overlap gene 2. 基于terms之间词义相似性 3. 对于GO结果,综合考虑有向无环图和词义相似性
  • 基础的方法是基于gene overlap,更先进方法 会考虑基因集相似性来 进行对富集结果进行聚类,聚类的方法多样
    • 基于基因集相似性聚类会有一些问题例如:
        1. 对GO富集结果进行聚类,由于GO结果是有层级关系的,不同层级terms词义相似性差异比较大,可能会导致大类趋向于有更小的相似性分数,小类有更高的相似性分数(GO结果中层级关系靠下的词义相似性更高)
        1. 不同层级的terms聚类时,可能混在一起,A的子类可能会跟B聚在一起
  • 对于一些聚类方法,会提取聚类结果中子集来 减少terms


    image.png
    image.png

simplifyEnrichment原理简介

  • 使用binary cut进行聚类,在两组间利用PAM进行两组划分,并且每次迭代前分配一个分组/阈值来决定是否还需要划分�选择两个数据点作为初始的中心点,根据词语相似性的值,将各个数据点分配到两个中心点中,分成两类,循环该步骤,设定阈值组间相似性阈值 退出循环,得到聚类结果
  • 该方法与其他方法进行比较,cluster中比较相似,cluster间比较互斥
  • 基于 ovlap gene做聚类 稳定性不好


    image.png

simplifyEnrichment可以实现

  • 以词云的方式对聚类结果可视化方便用户找到聚类中共享的生物功能
  • 可以导出相关结果
  • 可以自定义聚类算法 ,利用该软件进行可视化


    image.png

simplifyEnriment聚类过程

  • 使用二分法根据 functional terms 词义相似性矩阵(默认使用GOSemSim) 进行聚类,分为两步:
    • 第一阶段:利用分割聚类并生成树形图,首先利用相似性矩阵,使用PAM将数据(行和列)分成两类,得到四个部分,在计算每部分的score==>计算代表 cluster间相似性与cluster内部相似性的值标注为s==>循环该聚类步骤,保存树状图
    • 第二阶段:根据s的阈值来决定是否需要继续聚类
      具体方法可参考原文


      image.png

simplifyEnrichment 聚类效果图(摘自文献)

image.png

自用simplifyEnrichment小总结

  • 使用词义相似性聚类 结果比较符合预期
  • 画图与聚类同时进行,该过程稍慢
  • 如果聚类结果 比较多,也可以从结果中筛选一部分关注的进行画图
  • 此种聚类方法为硬聚类,每个GO term只归属到一个cluster中
  • 还有其他方法也可以实现类似功能,eg:GOSemSim

以上均为 自己理解

相关文章

网友评论

      本文标题:SimplifyEnrichment:功能富集结果聚类去冗余和可

      本文链接:https://www.haomeiwen.com/subject/kgyrgdtx.html