美文网首页基因组数据绘图
基因富集分析的算法介绍

基因富集分析的算法介绍

作者: drlee_fc74 | 来源:发表于2020-04-05 08:54 被阅读0次

富集分析其实只是一个整体的简称,这里面包括了很多很多不同的算法。对于主要的算法过程其实不用太多了解,这个有专业的人来解决就行。但是对于其输入条件和主要区别还是要了解的。这样方便我们使用。

ORA(Over Representation Analysis):过表达分析

我们常规的做的或者公司给的富集分析的结果里面给的GO分析和KEGG分析的结果就是使用ORA的算法来做的。

这个算法采取的类似于一刀切的逻辑思维,我们需要对差异的结果设置一个标准(通常也就是我们差异表达的条件),如果达到这个标准了,那就可以当作候选分析的基因。最后我们把所有候选分析的基因都选出来。把基因名都输入到算法里面,再结合背景数据库就得到分析的结果了。

所以这个算法的主要输入条件其实就是基因名即可。一般而言ORA使用的背景数据集就是GO和KEGG这些

image.png

可视化选择

对于ORA的可视化方面的话,由于富集的差异筛选也是基于P值来进行筛选的。所以一般通过柱状图或者气泡图也就可以进行展示了。例如下面的柱状图。

image.png

GSEA(Gene Set Enrichment Analysis)基因集富集分析

相较于ORA一刀切的方式来选择输入基因,GSEA的算法认为,虽然有一些基因不满足严格的筛选标准,但是也是有可能起作用的。比如说,

我们有两个基因TP53的表达差异是1.1,而TP21的表达差异是0.9。如果按照ORA的方法,如果按照1作为筛选标准,按照ORA的算法,那么TP53就可以进入后续分析。而TP21则会扔掉。但是真实情况是,在生物过程当中,TP21真的不起作用吗?显然不是的。基于这种考虑,所以才开发出了GSEA算法。

image.png

GSEA是通过整个基因组表达的情况来评估主要是哪些通路有意义。所以我们在输入的时候需要输入整个基因组的基因以及其对应的表达量(logFC即可或者表达矩阵)

对于GSEA而言,使用的则是MSigDB的背景数据集。里面包括了相对应的GO和KEGG的数据集。

可视化选择

基于GSEA算法我们也可以得到一个评估富集的得分(ES得分)。基于富集的过程也有一个特殊的可视化的图。

image.png

对于GSEA图形的解读,我们可以把GSEA分析的图分成三个三个部分来进行解读。这三个图,纵坐标不一样,横坐标相同。我们就一部分一部分的解释这个图。

每个图片先看标题,这个GSEA分析其实是做了两个通路的GSEA的结果。其中绿色线条是一个通路,褐色线条是一个通路。

image.png

接着解释一下横坐标,横坐标代表的每个基因在数据集进行降序排序后的位置。由于GSEA是把所有测序的基因全部放进去分析的。所以如果按照排名来说的。按照上图来说,这个基因集一共有6000个基因进行了分析。

从下往上来依次说一下这个图怎么看

  • 最下面的部分:那个纵坐标代表的是每个基因在两组之间的差异分析后的logFC的值。所以如果按照logFC进行降序排序的话,那就会形成这样一个平滑的曲线。里面其实每一条竖杠就代表一个基因。下图是把这两个通路当中想要研究的基因标注出来了。
image.png
  • 中间部分:代表在进行GSEA分析当中目标通路相关基因在基因的差异分析当中所处的位置。如果我们把横坐标移上去就是这个样子的了。
image.png
  • 最上面的那个部分,则是GSEA富集分析当中,通路的走势图。其中关于富集得到是来自于走势图的顶点部分。
image.png

NTA(Network topology Analysis)网络拓扑学

这个和之前两个稍微有点儿不一样。其实和我们在文献当中所说的蛋白相互作用(protein-protein interaction, PPI)类似。基本就是基于基因来构建一个相互作用的网络。通过网络来展示输入基因之间的相互关系。

我们需要输入的就是基因名即可。

可视化选择

对于网络拓扑的可视化,一般都选择网络的方式来进行展示。对于网络当中的具体信息。我们可以以后在说。

image.png

写在最后

基本上关于富集分析的内容就是这么多。通过上面的那些东西,我们也发现,其实算法是固定的。背景数据库呢,虽然都是叫GO或者KEGG。但是对于基因功能是在不断完善的,所以GO和KEGG的库也是在完善的,如果我们所借助的工具不能实时的更新背景数据库的话。那结果就有可能有偏差。这个时候就不得不DISS一下DAVID了。这个文献经常用的富集分析库其实好久没更新了。。。。

一般工具推荐的话,其实最好的还是R语言当中的clusterprofiler包。如果确实不会用R的话,最好也要找一个时常更新的数据库。比如明天我们要说的这个:WebSestalt。

欢迎关注公众号:数据库百科,一个介绍医学科研相关数据库使用的公众号

image.png

相关文章

  • 基因富集分析的算法介绍

    富集分析其实只是一个整体的简称,这里面包括了很多很多不同的算法。对于主要的算法过程其实不用太多了解,这个有专业的人...

  • (日常记录)GSEA富集分析软件的使用

    常用富集分析包括GO富集、KEGG富集,这两种富集方式都是基于已经通过算法确定差异倍数的差异基因来分析的,而对于一...

  • GSEA学习笔记

    Gene set enrichment analysis, 基因集富集分析 1、算法思想 对某基因Knock do...

  • RNA 20. SCI 文章中单样本免疫浸润分析 (ssGSEA

    这期讲讲单样本基因富集分析,这个也蛮有意思的之前我已经介绍过基因集富集分析(GSEA),但是当时是用差异基因来分析...

  • miRNA功能富集分析

    相信大家都做过基因的功能富集分析,小编前面也花了不少篇幅给大家介绍GO和KEGG富集分析 ☞GO和KEGG富集分析...

  • 本体论

    下面介绍一下基因功能富集分析的研究进展: 基因功能富集分析中的基因功能指的是众多代表一定的基因功能特征和生物过程的...

  • 基因功能富集方法和基因注释数据库介绍

    1. 两种基因功能富集方法介绍 名词解释:1. 基因功能富集分析:包括过表达分析ORA、功能分类打分FCS、基于同...

  • R包-KEGG的超几何检验和基因富集分析(菜鸟篇)

    什么是基因富集分析? 基因富集分析(gene set enrichment analysis)是在一组基因或蛋白中...

  • 专题:富集分析

    GSEA基因集富集分析 1、用clusterProfiler做GSEA - 简书 2、GSEA-基因集富集分析 -...

  • LOLA:overlap analysis for enrich

    前言   说到富集分析,大家肯定第一时间会想到GO、KEGG、GSEA等常见的基因富集分析。那什么是基因富集分析呢...

网友评论

    本文标题:基因富集分析的算法介绍

    本文链接:https://www.haomeiwen.com/subject/ypyyphtx.html