《Max-Margin DeepWalk: Discrimina

作者: adcll0910 | 来源:发表于2016-09-28 11:23 被阅读0次

《Max-Margin DeepWalk: Discrimina
DPM算法
win10下DeepWalk安装配置运行中遇到的问题
DeepWalk
DeepWalk
Deepwalk
DeepWalk
NLP（二）学习《DeepWalk: Online Learni
论文笔记之DeepWalk: Online Learning o
DeepWalk学习笔记

本文同时发布于西土城的搬砖工和简书
论文链接：Max-Margin DeepWalk: Discriminative Learning of Network Representation

引用格式：
Cunchao Tu, Weicheng Zhang, Zhiyuan Liu, Maosong Sun. Max-Margin DeepWalk: Discriminative Learning of Network Representation. International Joint Conference on Artificial Intelligence (IJCAI 2016).

标题：Max-Margin DeepWalk: Discriminative Learning of Network Representation
来源：IJCAI 2016
问题：
作者提出,DeepWalk作为一种典型的学习社交网络节点向量表示的方法,在一些任务上缺乏足够的区分能力。故作者在本文提出Max-Margin(最大间隔)DeepWalk方法,在最大间隔分类器的影响下,原先学习到的节点向量的区分能力有所增强。

背景简介：

相关工作	解决问题
DeepWalk	基于随机游走和Skip-Gram学习图节点表示
矩阵分解形式的DeepWalk	证明DeepWalk等价于矩阵分解,分解结果包含内容属性
Max-Margin DeepWalk	引入SVM分类器增强前述模型习得向量的区分能力

主要方法：
基于矩阵分解的DeepWalk模型（MFDW）
再提及该方法前需要对DeepWalk进行简单的介绍，该方法的具体描述见《DeepWalk: Online Learning of Social Representations》DeepWalk大致过程如下：随机游走遍历某节点的邻节点，得到一个节点序列，再借鉴skip-gram的原理，由单个节点预测前后序列，学习得到该节点的向量表示。在这其中利用Hierarchical Softmax减小搜索空间。
基于矩阵分解的DeepWalk具体可以参考《Network Representation Learning with Rich Text Information》。简单概括的话，作者通过数学推导，证明DeepWalk的学习过程类似传统主题模型矩阵分解的操作。示意图如下：

其中M表示图的邻接矩阵,W表示节点的向量表示矩阵,(M∈R^n×k ,n表示节点个数,k表示节点向量维度),T矩阵根据作者推导,类似主题模型矩阵分解的处理思路,作者认为该矩阵反应了节点本身的内容特征。易知,HT∈R^n×k .最后就可以将之后将W与HT同一行的向量拼接在一起，作为2k维的向量表示节点属性。
最大间隔DeepWalk模型（MMDW）

基于最大间隔思想设计的分类器中,最为有名的即为SVM分类器,作者使用On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines中提出的多类SVM分类器。该多类分类器的关键在于构造W参数矩阵。(W∈R^L×K)的矩阵,L表示label个数,K表示特征向量维度)在比较时可以将特征向量x依次与W矩阵每一行参数点乘,根据值的大小判断所属类别类别。相应的优化函数如下：

但是如果只用上述SVM分类器做分类.对节点向量本身不产生影响。基于此,作者将前面MFDW的训练过程与这里SVM分类器的训练过程,利用节点向量x作为纽带结合起来，具体方法是利用biased gradient在节点向量学习时,传递SVM分类器参数的变化情况。这样将节点在SVM分类器中反应的label属性融合到特征向量中,并且由于SVM分类器本身区分能力强的特点,提高了特征向量的区分能力。经过上述过程后,优化函数如下：

]
相关工作：
参数学习：
参数学习是模型训练的重要部分。本文由于是SVM分类器与MFDW模型的结合,模型的迭代更新也自然分为这两部分。在每一轮次中,针对某模型的参数进行学习更新时,需要保证另一模型的参数不变。
对于SVM分类器中的分类器参数W和松弛变量ζ 而言,学习思路参考Crammer&Singer提出的方法,并结合Keerthi在2008年提出的解决序列对偶问题的方法。
对于节点特征向量矩阵X和内容矩阵Y的迭代更新,由于节点向量矩阵X的的节点特征向量同时在两个模型中出现。那么在优化X,Y的时候,我们考虑加入偏置,使节点特征向量x_i朝着前面最大间隔分类器优化的方向迭代更新。即在求取前述L_DW关于x_i的偏导时,引入下面的bias因子：

实验结果：
由于实验结果较多，且部分涉及模型本身性能的分析,这里重点说明自己感兴趣的部分：
节点区分能力图示：
左图是传统DeepWalk的方法,右图表示本文提出的DeepWalk改进模型,从图中可以看出，由于结合最大间隔模型，本文模型的区分能力更强：

模型对语义信息的把握：
下表反应的是原模型与作者改进模型在某论文数据集上进行聚类得到的部分结果对比图。该轮文数据集主要包含论文的基本信息及相互引用的情况。可以看出,由于隐含的结合了label信息在内,本文所提出的MMDW模型在主题层面对于数据的划分相比之前的模型，更为准确。

简评：
选择这篇论文主要是由于经过一段时间的调研,感觉目前学习网络节点的embedding表示的方法层出不穷。自己感觉在研究过程中,如果不能结合具体问题分析具体特征,很难有好的论文创新点。这篇论文就是作为发表在今年IJCAI上的论文,是一个将其他节点属性信息融合到节点向量学习的很好的例子。具体说来,本文为有以下几点值得学习：
创新点突出：
DeepWalk模型是在2014年提出的,在2015年,有人证明DeepWalk可以视作矩阵分解问题,并得出分解得到的矩阵包含图节点的向量表示和内容特征。而最大间隔方法之前在主题模型、分词等NLP传统领域使用较多,这里,作者能将该方法迁移用于改善向量区分能力。这一创新之前无人涉及，也取得了很好的效果。
选择选择得当：
本文提出模型中需要用到与节点内容属性相关的特征。针对这一情况,本文在实验中,使用的主要数据包括Cora、Citeseer、Wiki。前两个数据集包括论文基本信息及其引用情况。Wiki中如果将url视作节点,相互引用的wiki之间视作存在关系对,我们就可以将其转换为社交关系网络来处理。这些数据的文本部分包含丰富的语义信息,可以有效说明论文模型的适用性和优势。
基础知识扎实：
文中利用文本特征驱动节点向量训练时，采用了biased gradient的方法，由于暂时没有查到相关资料，这里可能这是作者独立提出来的。该方法从算法角度并不复杂，但却可以有效的改变训练方向,加入SVM学习到的相关信息,从而“引导”节点向量的迭代更新。该方法的提出以及文中大量关于SVM模型的分析推导过程均显示出了作者该领域不俗的功力。