GSEA富集分析原理

作者: 倪桦 | 来源:发表于2023-03-08 16:22 被阅读0次

GSEA定义的富集分数计算原理

Gene Set Enrichment Analysis (基因集富集分析) 主要用来评估一个给定基因集内的基因与表型相关性强度，从而判断其对表型的贡献。

根据计算基因与表型的关联度（正相关变化或负相关变化），然后判断基因集内的基因是否富集在表型相关度排序基因表的前部或者后部。从而反映基因集内基因的协同变化是否与表型关联。在表型关联研究中，GSEA从基因集的富集角度出发，理论上更容易纳入变化水平较低但也与表型协同变化的基因，尤其是差异倍数不太大的基因集。

基因-表型-相关性顺序表(L)
富集得分ES, enrichment score ，该指标反映了基因集(S)内成员在基因-表型-相关性顺序表(L)中位于两端的富集程度。计算方式，从顺序表(L)的上的第一个基因开始，当遇到S内成员时加上统计值，否者降低统计值。ES分数记录为统计值最大的峰值，ES大于零表示在L的左端富集，ES小于零表示在L的右端富集。ES的计算非常类似 Kolmogorov–Smirnov test 统计量 $D$ ，反映了基因集(S)与其它基因的分布差异，如果基因集(S)内成员在一端极度富集，经验累积分布函数将在一段快速提升获得一个很大的 eCDF差值 $D$ ，从而反映了基因集(S)的两端富集情况。

runing ES step

ES显著性检验 Permutation Test，大量构造与观测基因集(s)等大的随机基因集，这些随机构造的结果大概率是与研究表型不具有相关性的结果，随机构造集内的成员在相关性顺序表(L)中的分布应呈接近均匀分布的状态，从而基于Permutation test 生成判断 观测ES 的有效富集显著性分数。基本过程就是打乱样本的表型标签(也可以随机抽取观测集)，然后重新计算相关性顺序表(L)和ES得分(一般为执行1000次)，然后估计观测ES的估计P-value（根据抽样ES的分布来估计），通常呈正态分布可计算 P_val = （大于观测ES的随机观测结果数）/ 1000(总测试次数)。当ES大于0并且具有统计学意义时，就可以说基因集S内基因相比其他基因表达上调。

NES,Normalized Enrichment Score，考虑了不同查询基因集的大小，将观测ES除以Permutation Test得到的所有 ES均值计算得出NES。本质是考虑了不同基因集所代表的不同总体来源的观测ES的比较问题，将ES观测值转换为与总体背景下的ES均值的距离(类似方差距离的度量)来作为跨总体比较的结果。对于大于总体均值的ES观测值，NES应大于1。

$\therefore$ 判断基因集有效贡献的标准为 |NES|>1， p-val<0.05， q-val<0.25