以下仅仅为个人对文章的阅读记录,如有错误,欢迎指正。如需转载注明来源即可~~ (哈哈哈哈哈,点个赞再走)
Zhao Z, Fang Z, Li Y, et al. Dimension Relation Modeling for Click-Through Rate Prediction[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 2333-2336.
原文链接:https://dl.acm.org/doi/pdf/10.1145/3340531.3412108
一、动机与贡献
目前的CTR模型关注特征交互而忽略了隐式特征之间的关系。如下图中的Dimension Relation,本文发现建模这种关系可以在CTR预估中获得积极的影响,提出了Dimension Relation Module (DRM)。基于DRM,提出了FED模型(Field-wise and Element-wise embedding methods with our DRM)。
![](https://img.haomeiwen.com/i14782847/18a4ce85df547ea7.png)
本文的主要贡献:
- 建模嵌入空间中latent fields之间的关系可以提高CTR模型的效果,提出了DRM模型。DRM模型可以用在现在的部分CTR模型上,提升他们的效果。
- 基于DRM模型,提出了FED网络。FED同时建模了field-wise和element-wise信息,建模特征交互。
- 在Criteo、Avazu、JD.com 三个数据集上的效果超过了目前大多数SOTA模型。
二、DRM模块和FED模型
(一)DRM模块
DRM的目的是建模图一中提出的维度之间的关系。具体实现上还是使用了Attention机制。(下图中线上的红色小框代表一次线性变化,文中省略了,便于理解,我加上去了。)
![](https://img.haomeiwen.com/i14782847/4b9c973cfa34b22b.png)
V是输入特征经过embedding之后的表示。为了计算维度关系,通过转置获得U。获得U之后其实就可以按照CTR中常见的特征交互的方法进行计算了。不清楚作者有没有尝试过其他的方法,可能self-attention的效果确实很好。计算公式:
![](https://img.haomeiwen.com/i14782847/eb0f791c50baba7b.png)
![](https://img.haomeiwen.com/i14782847/6251ccea4dc683c6.png)
![](https://img.haomeiwen.com/i14782847/051cd4ccea5ddf84.png)
![](https://img.haomeiwen.com/i14782847/409c6f3981e7e27c.png)
![](https://img.haomeiwen.com/i14782847/60448a8fd9d754c3.png)
经过这种方法,从原始的特征表示V获得校准后的特征表示E。
(二)FED网络结构
![](https://img.haomeiwen.com/i14782847/d534546ee954e51f.png)
FED网络的完整结构图(根据公式,原图中缺少一条线,用红色线条加上去了)。流程比较清晰,获得矩阵E之后的三部分信息也比较清楚。主要介绍Element-wise module和field-wise module(其实就是一个DNN和一个self-attention)。
![](https://img.haomeiwen.com/i14782847/5194349e9473250e.png)
1、Field-wise Module.
简单来说,用了self-attention+resnet 结构。其他模型的结构也可以用,只要是基于Field-wise的,简单的比如FM、AFM、Bi-linear interaction。把最后获得的特征矩阵向量化。
![](https://img.haomeiwen.com/i14782847/540a29cc20235f5c.png)
![](https://img.haomeiwen.com/i14782847/5b6ab3c1829fab26.png)
2、Element-wise Module.
简单来说就是DNN。其实使用其他的结构,比如DCN、xDeepFM中的bit-wise方法。
![](https://img.haomeiwen.com/i14782847/996880c095b5350b.png)
三、结果分析
1、DRM对DNN和Field attention的提升。(为了说明DRM的效果,个人觉得还是应该将DRM添加在一些经典模型之前,比如FM、AFM、DCN、DeepFM等都可以。)
![](https://img.haomeiwen.com/i14782847/db01243013a9571c.png)
2、消融分析。
可以再加两组,(1)没有Element-wise和Field-wise,只使用DRM变换之后的特征E来预测的。(2)FED网络,但是不用DRM,直接说明DRM的效果,因为,目前的三个通道中分别使用了DNN、attention和近似于LR(相当于LR),和WDL比增加了Attention,效果可能会有所提升。
![](https://img.haomeiwen.com/i14782847/3173b49dba035844.png)
3、和SOTA模型的对比。
![](https://img.haomeiwen.com/i14782847/ee1f5fdba73c9b3c.png)
四、个人总结
前面看了IFM和DIFM,以及gatenet,NON,FiBinet。好像大家开始把注意力放在了特征交互前的特征校准上,学到一组新的特征。大家还有什么类似的文章,可以贴出来看看。本文是一篇短文,不清楚有没有发长问,我没有找到。如果有人看到了本文的长文可以贴出来。谢谢。
网友评论