美文网首页算法小白菜
WGCNA(二)WGCNA的步骤和原理

WGCNA(二)WGCNA的步骤和原理

作者: 小洁忘了怎么分身 | 来源:发表于2019-06-30 15:08 被阅读266次

    链接:http://genek.tv/,本文是该课程的学习记录。

    1.共表达

    两条基因的表达模式相似,即在某些样本中两条基因表达量都高,某些样品中表达量都低。



    用相关性系数r量化
    -1<r<1
    负值代表负相关,0代表不相关,正值代表正相关

    2.网络

    1.相关概念

    节点(node):图上的圆点,每个圆点代表一个基因。
    连接(link):图上的线,每条线代表两个基因的关系(可设置阈值,例如>0.7即标记相关)
    加权网络(weighted network)与无权网络(unweighted network)的区别是:加权网络的线条有粗细之分,粗细表示权重。
    邻接度:节点之间的关系强弱。一个网络里的所有基因形成一个邻接矩阵(adjacency matrix)。
    连通性(connectivity):反映节点的重要程度,与多少其他节点有关,以及关系的强弱。
    无权网络不显示权重,它的连通性只是连接基因的数目。
    加权网络的连通性是所有有关节点的关系强弱的叠加。

    2.随机网络与无尺度网络


    无尺度网络中,多数节点都只与几个节点有关(红色点);极少数节点与很多节点有关(蓝色点)。如果将每个节点的连接数进行排序,会发现无尺度网络的连通性符合幂律分布。
    因此,一个模块中有很多基因,但关键基因只有几个。

    3.分析步骤

    第一步:数据预处理

    (1)行名是样本名,列名是基因名。如果拿到的是表达矩阵,需要转置。
    (2)去掉所有样本中表达量都很低的基因
    (3)去掉所有样本中表达量几乎没有差异的基因,可用sd筛选,但不建议只保留差异基因(备注:这里说的差异基因,是指差异显著的基因)。

    第二步:构建相关性矩阵

    相关系数范围是-1~1,WGCNA分析要求转换为0-1范围。
    有两种转换方式:
    unsigned:不区分正相关和负相关
    signed:区分正负相关


    第三步:构建邻接矩阵

    多大的相关系数算相关?需要设置阈值。
    软阈值:soft threshold,用power函数将相关性矩阵转换成邻接矩阵,需要确定power的参数β。


    迭代一系列值,看β等于哪个值时:(1)这个网络更接近于无尺度网络
    (2)尽可能保留连通性信息。


    左右两张图的横坐标都是软阈值,👈左图纵坐标是无尺度网络的评价指标r2,r2越接近1,该网络就越接近无尺度网络,通常要求>0.8或0.9。
    👉右图纵坐标是平均连通性,该值随β的增加而降低
    综合两张图,通常选r^2第一次达到0.8或0.9以上时的β值。
    有了β值就可以根据公式将相关性矩阵转换为邻接矩阵。

    第四步:构建拓扑重叠矩阵

    简称TOM(Topological Overlap Matrix),相关系数只考虑到两个节点之间的线性关系,而TOM则是考虑到中间节点的(间接的)计算方法。


    总结:基因之间的关系/距离


    第五步:构建共表达网络

    对基因进行聚类,每条线代表一个基因,相似的基因被聚到一个分支。


    第六步:模块划分

    Dynamic Tree Cut,不同模块用不同颜色表示,同一模块的基因通常据有类似的功能。


    第七步:合并相似模块

    第8步,模块与性状关联

    相关系数只能计算对应的两列,而表达矩阵是一个表格,而非一列。
    方法是对一个模块里的基因表达矩阵进行主成分分析,用第一个主成分(PC1)的的指标--特征向量(ME)代表一个模块,得到模块MEs矩阵。



    可以计算每个模块的特征向量与三个性状之间的相关系数,形成一个矩阵,可做热图。


    第九步:GS和MM

    GS代表模块里的每个基因与形状的相关性
    MM代表单条基因和所在模块之间的相关性,表示是否与模块的趋势一致。

    第十步:Cytoscape可视化

    相关文章

      网友评论

        本文标题:WGCNA(二)WGCNA的步骤和原理

        本文链接:https://www.haomeiwen.com/subject/zjdwqctx.html