小编经常会被问到,XXX个性化分析也是做差异基因分析、基因富集分析或这不是和标准分析的分析内容一样吗?那为什么还要做这个呢?
今天呢,小编就跟大家好好聊一聊这些看似很像的分析到底有什么“玄机”。
基因共表达网络 VS 加权基因共表达网络
两个分析的原理基本一致,不同点在于:
基因共表达网络只是通过阈值判断是否相关,即展示关系的有无;
加权基因共表达网络图会展示都有存在相关关系的基因,用连线的粗细表示关系的强弱。加权基因共表达网络因其结果更符合生物体的真实状态,所以更受研究者们青睐。
基因共表达分析背景:基本分析进行复杂数据的多分组/多重分析比较困难、无法确定新基因的功能、基于差异基因的趋势分析的趋势众多,无法找到主要趋势、仅限于分组分析,不能结合表型数据分析等。
加权基因共表达网络: 是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
原理
1) 构建基因相似性网络
基于基因表达数据,计算基因间的相关系数(Pearson/Spearman),对相关系数取次幂,幂值的大小由该基因与其他基因的连接强度确定,幂运算目的强化了强相关,弱化了弱相关,使网络中的基因连接服从无尺度网络分布;
2) 根据基因相似性将网络划分为不同模块
对相似性网络进行聚类,将有高度连接的基因归于一个模块,筛选每个模块的特征值,特征值代表了该模块中所有基因的表达特性;
3) 分析模块和表型的相关性
通过计算表型信息与模块间相关性,找出具体哪些模块基因与我们关注表型紧密相关,从而筛选出重点模块;
4) 鉴定关键基因
先通过阈值筛选确定相关的基因,然后计算每个相关基因的连接度,连接度越强,说明越处于核心地位,以此确定关键基因。
结果解读
1和2是基因聚类树,每一树状图代表一个模块,每一个分支代表一个基因,每一种颜色代表一个基因集;3是相关性热图,每个点的颜色越深(白→黄→红)代表行和列对应的两个基因间的相关性越强。
基因共表达网络 VS 蛋白互作网络
基因共表达分析和蛋白互作分析是分别基于基因表达数据和基因序列数据,从两个不同水平分析互作关系。
基因共表达网络:是指利用自己数据基因表达的相关性来判断哪些基因可能存在互作关系,也就是用自己的样本数据算出来的,相对来说样本越多计算出来的结果就越准。
蛋白互作网络:是基于差异基因的序列数据,利用数据库中已经知道的蛋白质之间的互作关系预测我们数据中蛋白质的互作关系并绘制网络图,目前主要使用STRING在线网站进行基因蛋白互作网络分析。
原理
输入表达差异基因序列到数据库中,数据库将基因序列翻译成蛋白序列,与数据库中的蛋白序列进行比对,输出数据库中记录的蛋白质的互作关系。
结果解读
图中的节点代表蛋白,颜色代表表达量的上下调,两点之间的连线代表两个蛋白间存在互作,连线的粗细代表互作的强弱。
JASPAR VS SCENIC
JASPAR收集了有关转录因子与DNA结合位点(motif)的最全面的公开的数据库,利用 JASPAR数据库进行转录因子预测,并给出每个基因的起始位点上游、下游的转录因子的结合位点信息(方向、打分)。
原理
在数据库中上传差异基因序列,与数据库中的基因序列比对,输出数据库中记录的基因结合位点信息。
结果解读
橘色点代表基因,绿色点代表转录因子,连线代表存在调控关系。
SCENIC背景:传统的转录因子分析只对已知转录因子的表达和未知蛋白的转录因子预测分析,缺少活性分析,而转录因子活性是其发挥作用的关键指标。JASPAR分转录因子预测原理是基于热力学亲和力,会导致分析结果假阳性率比较高。
SCENIC是针对单细胞转录组数据开发的,通过基因共表达和结合位点(motif)分析来对单细胞数据中的转录因子活性、调控网络和细胞状态进行鉴定,揭示转录调控机制。
原理
1)利用GENIE来确定与转录因子共表达的基因,初筛转录因子和对应的靶基因;
2)通过顺势调控基序分析和motif富集分析来确定真正的转录因子-靶基因对(即调节子);
3)使用AUCell的算法来对每一组调节子的转录活性进行打分,通过设定阈值筛选。
结果解读
1是细胞类型的聚类,不同颜色表示不同细胞类型;
2是调节子的聚类;
3是红蓝颜色表示转录因子在不同细胞类型中活性的高低;
4是调节子的名称。
网友评论