美文网首页转录组下流分析
通路富集分析简介

通路富集分析简介

作者: Jason数据分析生信教室 | 来源:发表于2022-11-29 13:08 被阅读0次

    转录组分析传送门

    NGS手把手教学之零基础RNA-seq转录组分析实践,两套方案(2022年最新)
    通路富集分析简介
    GO富集详解(更新中)
    KEGG富集详解(待更新)
    Reactome富集详解(待更新)
    富集分析结果可视化大全(待更新)

    目录

    1. 常用的通路分析种类
      -- 1.1 GO功能分类
      -- 1.2 KEGG种类
    2. 常用的通路分析方法
      -- 2.1 过表现分析(Over Representation Analysis: ORA)
      -- 2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)

    1. 常用的通路分析种类

    1.1 GO功能分类

    1. Molecular Function(MF): 分子功能

    基因产物的分子活动

    1. Cellular Componen(CC): 细胞结构组成

    该基因产物的细胞内活动区域

    1. Biological Process(BP): 生物过程

    由多个基因参与的通路或者大型的生物过程

    1.2 KEGG种类

    分为7大类

    1. Metabolism 代谢通路
    2. Genetic information processing 基因通路
    3. Environmental information processing 环境通路
    4. Cellular processes 细胞通路
    5. Organismal systems 组织通路
    6. Human diseases 人类疾病通路
    7. Drug development 药物开发通路

    2. 常用的通路分析方法

    2.1 过表现分析(Over Representation Analysis: ORA)

    最常见的例子就是通过转录组分析出来的有表达差异的基因(DEGs)来寻找已知的通路。计算公式就是一个超几何概率分布:

    Fig1

    N: 数据库里的所有基因数量

    M: 已知的直接或间接和该通路有关的基因数量

    n: DEGs的全体数量

    k: 和该通路有关的DEGs数量

    举个栗子,假设在一次转录组测序中得到了17,980个有注释的基因,其中57个被确定为有表达差异(DEGs)。在这57个DEGs里,有28个出现在了一条通路上,那么请计算一下这条通路是不小心随机出现的还是另有图谋的。

    d <- data.frame(gene.not.interest=c(2613, 15310), gene.in.interest=c(28, 29))
    row.names(d) <- c("In_category", "not_in_category")
    d
    
    ##                 gene.not.interest gene.in.interest
    ## In_category                  2613               28
    ## not_in_category             15310               29
    

    然后用Fisher’s exact test来验证这个超几何概率分布。

    fisher.test(d, alternative = "greater")
    
    ## 
    ##  Fisher's Exact Test for Count Data
    ## 
    ## data:  d
    ## p-value = 1
    ## alternative hypothesis: true odds ratio is greater than 1
    ## 95 percent confidence interval:
    ##  0.110242      Inf
    ## sample estimates:
    ## odds ratio 
    ##  0.1767937
    

    2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)

    刚才的ORA法有一个明显的缺陷,就是只关注了DEGs,但没有明显表达变化的基因真的就不起作用了吗?明显不是这样的。GSEA的算法要比ORA复杂,也是近年来富集分析的主流。

    GSEA的计算主有三个关键步骤。

    1. 计算富集分数(Enrichment Score:ES)
    2. 计算ES的显著水平
    3. 多重比较矫正

    R语言包clusterProfiler, DOSE, meshesReactomePA都支持这个算法。

    分析教程会后续详细展开。

    相关文章

      网友评论

        本文标题:通路富集分析简介

        本文链接:https://www.haomeiwen.com/subject/mhsdfdtx.html