理解差异表达与GO分析

作者: 王诗翔 | 来源:发表于2017-09-28 19:36 被阅读379次

    记录跟差异基因分析相关的几个概念,主要摘自《R与Bioconductor》一书。

    基因表达差异的显著性分析

    简称表达差异分析,其目的是比较两个条件(包括种属、表型等)下的基因表达差异,通过一定的统计学方法,从中识别出与条件相关的特异性基因,然后进一步分析这些特异性基因的生物学意义。

    基因表达差异分析的第一步是要识别在两个条件下有显著性表达差异的基因,简称差异表达基因。那么怎样才能称得上显著性表达差异?通常是指一个基因在两个条件中表达水平的检测值差异具有统计学意义,往往基于一定的统计假设。

    常用的算法有三类:

    • 倍数分析 - 计算每一个基因在两个条件下的比值,若大于给定阈值,则为差异表达基因;
    • 经典统计模型(如t检验)方法 - 计算表达差异的置信度,选取一定P值以下的作为差异表达基因;
    • 机器学习 - 进行特征(基因)选择,包括贝叶斯模型、支持向量机或者随机森林等。

    得到差异表达分析后,通常会进行基因本体论和通路分析(通常称为下游分析)。

    基因本体论分析

    基因本体论(Gene Onotology, GO)分析包括GO注释和富集分析。

    GO是基因本体联合会(Gene Ontology Consortium)所建立的数据库,它由一组预先定义好的术语(GO term)组成,这组术语对基因和蛋白质功能进行限定和描述,适合于各种物种,并能伴随研究不断深入而更新。GO中的每个术语都有唯一的一个GO ID,GO的所有术语由有向无环图来相互联系,术语之间通常有三种关系:"is_a","part_of"和"regulates"。

    Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到Term,即功能类别或者细胞定位。

    GO注释,就是将表示基因或其产物的ID映射到一组GO的ID上,用这组GO term来描述这个基因。实际应用中,人们更关心差异表达基因(或一组基因)的共同点,分析它们所对应GO的分布情况。

    通过加入一些统计模型,使分析更加深入,可能会产生更有生物意义的发现。GO富集分析,就是基于这么一个思想的分析方法。GO富集分析的统计学基础是超几何分布,简单而言就是根据Fisher精确检验对每个GO term计算一个P值。
    $$
    P=\frac{(\frac{M}{k})(\frac{N-M}{n-k})}{(\frac{N}{n})}
    $$
    公式显示查看博客

    • N表示此次研究中(比如一个芯片上)所有基因总数;
    • n表示N中差异表达基因的总数;
    • M表示N中术语某个GO term的基因个数
    • k表示n中属于某个GO term的基因个数

    通路分析

    通路分析包括通路注释和通路富集分析。通路富集分析的基本思路、统计模型等和GO富集分析如出一辙。常用的公共通路数据库主要有KEGG(Kyoto encyclopedia of genes and genomes)、BioCarta和GenMAPP(Gene map annotator and pathway profiler),最为著名的是KEGG库中的代谢通路,它几乎成了通路注释的代名词。

    附上一个比较详细的介绍链接:基因芯片数据GO和KEGG功能分析

    相关文章

      网友评论

      • 普鲁卡果:GO分析中,如果我输入的entrez id中有重复的话,对结果会有影响吗
        王诗翔: @ovela7 应该会有。Go分析背后是超几何分布,好像就是无放回抽样,你多塞了个一样的可能会有影响,但如果程序预先判断并且过滤掉重复的话,另说了。所以你要具体看看,尽量不要重复。
      • 王诗翔:latex公式简书不支持,没办法,等更新到博客后我再加个链接。

      本文标题:理解差异表达与GO分析

      本文链接:https://www.haomeiwen.com/subject/mmpvextx.html