推荐系统与深度学习(11): 用于CTR预测的门控增强深度网络

作者: 银色尘埃010 | 来源:发表于2021-06-01 18:57 被阅读0次

以下仅仅为个人对文章的阅读记录，如有错误，欢迎指正。如需转载注明来源即可~~ （哈哈哈哈哈，点个赞再走）

Huang T, She Q, Wang Z, et al. GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction[J]. arXiv preprint arXiv:2007.03519, 2020.
原文链接：https://arxiv.org/pdf/2007.03519.pdf

一、相关工作
因为门机制广泛运用于计算机视觉，自然语言处理中，有助于优化深度学习的训练。因此作者提出了名为GateNet的模型，可以选择显著的信息同时显式地选择更有效的高阶交互。
主要贡献：

提出了基于门的特征嵌入层来代替传统的嵌入层，提高模型的能力。将特征嵌入门插入到FM、DeepFM、DNN和XDeepFM等经典模型的嵌入层中，我们发现了显著的性能改进。
MLP层是典型DNN模型中隐式捕获高阶特征交互的重要组成部分，在深度模型的MLP部分引入了隐藏门，提高了经典模型的性能。
通过插入隐藏门来增强标准DNN模型是简单而有效的，可以达到与其他最先进的模型基线(如DeepFM和XDeepFM)相当的性能。

二、GateNet模型

GateNet模型结构如下。左侧是标准的DNN网络。中间是基于门的特征嵌入层。右侧是在DNN中加入门机制。

(一)、基于门的嵌入层

首先看图，挺好理解的。首先我们理解，这一层是使用在每个field的embedding上的。例如我们的输入有10个field，那么针对每个field的feature embedding，都有一个小的网络。这个网络有两种形式，"vector-wise" 和 "vector-wise"，对应图中的两种模式。vector-wise 可以看到只学一个权重，然后权重和原始embedding 相乘；bit-wise，学习和初始embedding相同长度的权重，逐位相乘。计算方式也很简单，通过矩阵实现即可。一定注意的是，每个field的embedding上都有一个小的网络。（其实都可以，不过作者后续试验也说明这样的效果好。）