什么是WGCNA?
WGCNA(Weighted Gene Co-Expression Network Analysis, 加权基因共表达网络分析),鉴定表达模式相似的基因集合(module)。解析基因集合与样品表型之间的联系,绘制基因集合中基因之间的调控网络并鉴定关键调控基因。WGCNA的出发点是基于系统的基因表达水平来构建一个网络,目的是显示出基因间的共表达关系,那么相似表达模式的基因可能存在共调控、功能相关或处于同一通路;即如果某些基因的表达趋势随着不同处理之间的变化而有相同的变化趋势(表达模式),那么我们认为这些基因很可能在一个通路上,或者在相互调控的通路上富集。
WGCNA适合于复杂的转录组数据,研究不同器官/组织类型和不同阶段的发育调控、生物和非生物胁迫的不同时间点响应机制
什么是共表达?
简单来说在多样样本中,两个的基因的表达模式相似,同时升高,同时降低。共表达往往意味着功能的相关性,比如A基因可能是B基因的转录因子。通过计算相关系数来判断是否共表达。
什么是网络?
通过基因的相关性来构建共表达网络,可以设置一个阈值(0.8),大于0.8的可以认为有关系,通过一条线来连接。每一个节点代表一个基因,每条线代表基因之间的关系。通过连接线的粗细分为无权网络和加权网络,粗细反应了关系的强弱,相当于权重。节点之间的关系强弱叫做邻接度,一个网络的所有基因就形成了一个邻接矩阵。连通性反映节点的重要程度,在无权网络中连通性是有关节点的数目,而加权网络就是所有有关节点关系强弱的叠加。
随机网络与无尺度网络
随机网络没有特别关键的节点,每个节点都和随机和其它节点关联。无尺度网络中,多数节点都只与几个节点有关(红色点);极少数节点与很多节点有关(蓝色点)。如果将每个节点的连接数进行排序,会发现无尺度网络的连通性符合幂律分布。因此,一个模块中有很多基因,但关键基因只有几个。比如人际关系就是一个无尺度网络,认识你的人可能有几百个,但认识马斯克的人可能有几亿个,那么马斯克就是一个关键节点。
分析步骤
第一步数据预处理
数据输入的要求,行名是样本名,列名是基因名。如果是表达矩阵,需要转置,表达矩阵建议用TPM。为了节约时间和计算资源,建议去掉所有样本中表达量都很低的基因,去掉表达量几乎没有差异的基因,不建议只保留差异基因,因为会改变网络的拓扑结构。
第二步构建相关性矩阵
相关系数范围是-1~1,WGCNA分析要求转换为0-1范围。有两种转换方式,unsigned:不区分正相关和负相关,直接取绝对值;signed:区分正负相关。
第三步构建邻接矩阵
人为设置阈值会存在主观因素,所以WGCNA的作者开发了一种软阈值的方法。软阈值:soft threshold,用power函数将相关性矩阵转换成邻接矩阵,需要确定power的参数β。要求:(1)这个网络更接近于无尺度网络(2)尽可能保留连通性信息。
下图左纵坐标是无尺度网络的评价指标r2,r2越接近1,该网络就越接近无尺度网络,通常要求>0.8或0.9。下图右纵坐标是平均连通性,该值随β的增加而降低。综合两张图,通常选r^2第一次达到0.8或0.9以上时的β值。有了β值就可以根据公式将相关性矩阵转换为邻接矩阵。
第四步构建拓扑重叠矩阵
简称TOM(Topological Overlap Matrix),相关系数只考虑到两个节点之间的线性关系,而TOM则是考虑到中间节点的(间接的)计算方法。举个例子:假如我们没有观察到A、B一起上班一起下班,但A认识的人B80%也认识,那么可以推断A与B是互相认识的。
第五步构建共表达网络
对基因进行聚类,每条线代表一个基因,相似的基因被聚到一个分支。
第六步模块划分 Dynamic Tree Cut
不同模块用不同颜色表示,同一模块的基因通常据有类似的功能
合并相似模块
将相似的模块进行合并
第八步模块与性状关联
相关系数只能计算对应的两列,表达矩阵是一个表格,而非一列。方法是对一个模块里的基因表达矩阵进行主成分分析,用第一个主成分(PC1)的指标——特征向量(ME)代表一个模块,得到模块MEs矩阵。可以计算每个模块的特征向量与三个性状之间的相关系数,形成一个矩阵,可做热图。
第九步GS和MM
GS代表模块里的每个基因与形状的相关性。MM代表单条基因和所在模块之间的相关性,表示是否与模块的趋势一致。
Cytoscape可视化
WGCNA的分析结果可以导入到Cytoscape中可视化
网友评论