美文网首页推荐系统研究专区
基于异质信息网络(HIN)的推荐(1):Heterogeneou

基于异质信息网络(HIN)的推荐(1):Heterogeneou

作者: 阿瑟_TJRS | 来源:发表于2020-02-13 18:22 被阅读0次

    本文是自己在推荐系统研究中研读的论文翻译及解读,原文:Heterogeneous Information Network Embedding for Recommendation

    关于异质信息网络(HIN),初次接触感觉跟知识图谱非常相似,具体的特点和性质尚未了解,后续继续学习更新

    background

    推荐的核心问题包括

    • 对物品建模
    • 对用户建模
    • 对用户-物品交互关系/匹配关系建模

    传统的方法基本上都是在交互关系上下功夫,利用历史交互记录学习交互关系,目前主流的研究方向就是引入更多的辅助信息,获取更多的交互关联,提取更深的交互关系。 包括基于知识图谱的相关研究
    HIN基本的概念即为有向图,节点表示实体,边表示关系,与KG特别相似

    那么基于HIN的推荐就是利用HIN获取在物品与用户交互关系的基础上引入更多的信息,通过图中的路径,建立用户/物品间语义相似度评估,进而用于推荐。HIN的基础知识后续会补充

    针对基于HIN的主流算法(基于元路径meta-path),作者指出了两个问题:

    1. 基于元路径的相似度依赖于明显的路径关联,当图中路径稀疏或者混乱的时候就很难实现
    2. 此外,基于元路径的相似度刻画了HIN中语义关联,往往不能直接用到推荐中。之前的方法利用线性加权的方法将该相似度与矩阵分解相结合,不能很好地利用语义关联中的复杂关系。

    相应地,论文在meta-path基础上提出

    1. 使用Random walk策略生成节点序列。对不同的meta-path都会学习其embedding,最后融和多个embedding作为HIN embedding。

    2. 将HIN embedding融合,尝试使用简单线性聚合、个性化线性聚合函数和非线性聚合三种聚合函数来表示一个Node,以此来得到适用于推荐的表示。

    3. 最后将得到的融合embedding和传统的矩阵分解结合做预测任务,生成推荐评分。

    HIN基本概念

    • Heterogenous Information Network 异质信息网络在文中定义为包含多种类型客体或关系(object or link)的信息网络,个人理解异质即体现在不同的客体/关系 heterogenous可以理解为异质或异构,个人第一感觉是指数据的异构,没想到这个地方指的仅仅是区别

    • Network schema 网络架构/模式 可以理解为从HIN网络中获取路径信息的模版或方式,这个地方感觉与自动机非常相似

      如原文中列举的图,不同的数据集中采用不同的架构获取信息 架构中的客体往往为应用中比较关注的内容,推荐中即为用户和物品,
    • Meta-path 元路径 从Network Schema中获取的路径模版,如从上图a的架构中提取的元路径就包括: U->U, U->M->U 这些路径可以直观地描述用户之间不同类型的关联,包含不同的语义信息。

    基于HIN的推荐就是利用HIN中的用户和物品的关联,训练模型用于预测用户对于候选物品的评分或兴趣程度。

    模型设计

    原文的思路比较清晰,可以分为两部分: 1)特征表示学习, 构建embedding表示HIN,以有效地利用HIN中的语义信息表征用户和物品;2) 预测

    HIN embedding 生成

    作者在网络嵌入表示的工作基础上,提出HIN embedding模型,来学习图中节点的低秩表示。 作者也提到了其与已有图嵌入方法的区别,包括deepwalk 等方法等区别,以往方法是在同质网络上进行的,对节点和边没有区分对待。该文的工作看下来则是在节点生成的过程中引入了一些处理,论文源码中也是利用了deepwalk进行embedding生成的
    相关基础知识:
    deep walk
    node2vec
    deepwalk 源码

    • 元路径算法
      回到论文,为了获取embedding,首先需要从图中获取路径即信息。作者将HIN中的元路径与随机游走(random walk)结合提出路径 比较基础的操作
      实际做法就是: 将图的随机游走加上元路径限制,仅对元路径进行随机游走即可。 随机游走,就是对一个节点按照随机均等概率的形式选择相邻节点进行遍历 那么加上元路径如UMU,随机游走得到的路径就是u_1m_1u_2m_2u_3...,实际实现中往往采用截断式随机游走,即固定长度,可以理解为从图中进行长度固定的随机采样。

    对于随机游走得到的路径,再进行筛选过滤,获得推荐所需的节点序列,即用户序列和物品序列,而用户序列和物品序列就是所谓的同质序列。 对于这些同质序列就可以基于前面提到的deep walk或node2vec进行embedding学习,在其源码中就是基于deepwalk实现的embedding生成

    这样就得到了最基本的节点embedding表示,也就是HIN embedding.
    • embedding融合

      对于图中同一节点,使用不同的元路径会得到不同的embedding表示,从模式设计和功能的角度都需要对节点的embedding 进行融合

    预测

    • MF与fused embeddings 的整合
      基于前面的模块可以获取用户和物品的embedding表示,那么前面的embedding模型需要进行预训练用于下面的预测。

    论文中将矩阵分解与HIN embedding结合,还是简单的线性方式:

    也很好理解,第一项即矩阵分解的因子乘积,后两项则是结合的embedding项,为了得到最后的标量形式,需要对embedding做向量乘法,并设置不同的权重. 按理两类embedding应该是同样维度的,做乘法的时候顺序应该一样,但公式中还是分了前后

    关于embedding融合,论文也提出了三种不同的方式(简单线性,个性化线性,非线性),比较好理解,此处略过。。。

    • 参数学习
    那么最后的推荐模型的目标函数如上,比较常见的形式,基于梯度下降即可对模型参数进行更新学习,具体的参数包含融合embedding中的参数和相应的权重向量 该部分内容比较基础,给人一种水篇幅的感觉

    总的来说,模型非端到端的模型,需要先进行embedding学习,再构建用于推荐的模型。

    实验

    实验具体的推荐任务为评分任务,而非排序任务,使用MAE和RMSE进行评估

    进行了包括模型表现和灼烧实验,实验内容还是比较充实的 毕竟是期刊论文嘛

    总结

    通过本文,自己首次接触到了HIN,给自己开扩了视野,HIN作为一种引入辅助信息的有效方式,在推荐中肯定会有很多研究,需要做更多的文献调研。同时也感觉到该类方法对信息利用比较低,有很多辅助信息并没有发挥其用途;此外,其与知识图谱的区别也并不大,可解释性方面的优势也没有体现。

    相关文章

      网友评论

        本文标题:基于异质信息网络(HIN)的推荐(1):Heterogeneou

        本文链接:https://www.haomeiwen.com/subject/hwhcfhtx.html