美文网首页
推荐系统与深度学习(11): 用于CTR预测的门控增强深度网络

推荐系统与深度学习(11): 用于CTR预测的门控增强深度网络

作者: 银色尘埃010 | 来源:发表于2021-06-01 18:57 被阅读0次

    以下仅仅为个人对文章的阅读记录,如有错误,欢迎指正。如需转载注明来源即可~~ (哈哈哈哈哈,点个赞再走)

    Huang T, She Q, Wang Z, et al. GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction[J]. arXiv preprint arXiv:2007.03519, 2020.
    原文链接:https://arxiv.org/pdf/2007.03519.pdf

    一、相关工作
    因为门机制广泛运用于计算机视觉,自然语言处理中,有助于优化深度学习的训练。因此作者提出了名为GateNet的模型,可以选择显著的信息同时显式地选择更有效的高阶交互。
    主要贡献:

    • 提出了基于门的特征嵌入层来代替传统的嵌入层,提高模型的能力。将特征嵌入门插入到FM、DeepFM、DNN和XDeepFM等经典模型的嵌入层中,我们发现了显著的性能改进。
    • MLP层是典型DNN模型中隐式捕获高阶特征交互的重要组成部分,在深度模型的MLP部分引入了隐藏门,提高了经典模型的性能。
    • 通过插入隐藏门来增强标准DNN模型是简单而有效的,可以达到与其他最先进的模型基线(如DeepFM和XDeepFM)相当的性能。

    二、GateNet模型

    GateNet模型结构如下。左侧是标准的DNN网络。中间是基于门的特征嵌入层。右侧是在DNN中加入门机制。
    (一)、基于门的嵌入层

    首先看图,挺好理解的。首先我们理解,这一层是使用在每个field的embedding上的。例如我们的输入有10个field,那么针对每个field的feature embedding,都有一个小的网络。这个网络有两种形式,"vector-wise" 和 "vector-wise",对应图中的两种模式。vector-wise 可以看到只学一个权重,然后权重和原始embedding 相乘;bit-wise,学习和初始embedding相同长度的权重,逐位相乘。计算方式也很简单,通过矩阵实现即可。一定注意的是,每个field的embedding上都有一个小的网络。(其实都可以,不过作者后续试验也说明这样的效果好。)



    (二)、带有门的隐藏层
    结构如下。如果你熟悉residual net的话,是不是很熟悉,把residual net的加法改成乘法即可。这里首先将所有的初始embedding向量变成一个向量,然后使用MLP层,这里隐藏层的维度都是相同的,否则无法进行乘法操作。结构比较简单,具体公式可以查看原文。

    三、实验分析
    数据集:Criteo、ICME、SafeDriver。数据划分只有训练集和测试集。
    指标:AUC
    (一)、带有门的特征嵌入层是否可以促进原始模型的效果?
    1、添加了带有特征嵌入层之后的效果



    2、是否为每一个field配置一个网络。(private or shared)



    3、bit-wise or vector-wise?

    (二)、带有门的隐藏层是否有可以促进原始模型的效果?

    (三)、将两个结构组合是否可以提高模型的效果?
    三者对比没有很明显的结论。可能还是需要根据特定的数据集选择特定的方法。

    (四)、超参数对模型的影响。
    1、激活函数的影响



    2、embedding size的影响



    3、DNN层数的影响

    四、个人小结
    结构很简单,不知道大家觉得是否有明显的创新?

    相关文章

      网友评论

          本文标题:推荐系统与深度学习(11): 用于CTR预测的门控增强深度网络

          本文链接:https://www.haomeiwen.com/subject/blubsltx.html