文章简介
image.png摘要
- 功能富集分析是生信分析基础的方法,对揭示感兴趣基因参与的生物进程至关重要,但是富集结果又长又冗余 很难总结
- 目前简化富集分析结果的方法是通过聚类,但是在不同cluster之间仍有冗余,cluster内部不能保留一致
-
作者提出了二分法聚类,cluster内一致性较好,cluster间互斥。这种二分法聚类 如果依据词义相似性结果较好,如果基于 gene overlap表现出较差的一致性
image.png
背景介绍
- 现有针对富集结果进行聚类方法大体有三种:1. 基于overlap gene 2. 基于terms之间词义相似性 3. 对于GO结果,综合考虑有向无环图和词义相似性
- 基础的方法是基于gene overlap,更先进方法 会考虑基因集相似性来 进行对富集结果进行聚类,聚类的方法多样
- 基于基因集相似性聚类会有一些问题例如:
- 对GO富集结果进行聚类,由于GO结果是有层级关系的,不同层级terms词义相似性差异比较大,可能会导致大类趋向于有更小的相似性分数,小类有更高的相似性分数(GO结果中层级关系靠下的词义相似性更高)
- 不同层级的terms聚类时,可能混在一起,A的子类可能会跟B聚在一起
- 基于基因集相似性聚类会有一些问题例如:
-
对于一些聚类方法,会提取聚类结果中子集来 减少terms
image.png
image.png
simplifyEnrichment原理简介
- 使用binary cut进行聚类,在两组间利用PAM进行两组划分,并且每次迭代前分配一个分组/阈值来决定是否还需要划分�选择两个数据点作为初始的中心点,根据词语相似性的值,将各个数据点分配到两个中心点中,分成两类,循环该步骤,设定阈值组间相似性阈值 退出循环,得到聚类结果
- 该方法与其他方法进行比较,cluster中比较相似,cluster间比较互斥
-
基于 ovlap gene做聚类 稳定性不好
image.png
simplifyEnrichment可以实现
- 以词云的方式对聚类结果可视化方便用户找到聚类中共享的生物功能
- 可以导出相关结果
-
可以自定义聚类算法 ,利用该软件进行可视化
image.png
simplifyEnriment聚类过程
- 使用二分法根据 functional terms 词义相似性矩阵(默认使用GOSemSim) 进行聚类,分为两步:
- 第一阶段:利用分割聚类并生成树形图,首先利用相似性矩阵,使用PAM将数据(行和列)分成两类,得到四个部分,在计算每部分的score==>计算代表 cluster间相似性与cluster内部相似性的值标注为s==>循环该聚类步骤,保存树状图
-
第二阶段:根据s的阈值来决定是否需要继续聚类
具体方法可参考原文
image.png
simplifyEnrichment 聚类效果图(摘自文献)
image.png自用simplifyEnrichment小总结
- 使用词义相似性聚类 结果比较符合预期
- 画图与聚类同时进行,该过程稍慢
- 如果聚类结果 比较多,也可以从结果中筛选一部分关注的进行画图
- 此种聚类方法为硬聚类,每个GO term只归属到一个cluster中
- 还有其他方法也可以实现类似功能,eg:GOSemSim
网友评论