推荐系统遇上深度学习(一四二)-[微软&复旦]CTR预估中的对比

1、背景

主流的CTR预估模型大致可以分为两类，一类是传统的模型，如逻辑回归，FM，FFM等，这些模型仅可以建模低阶的特征交互，另一类是基于深度学习的模型，如DeepFM、wide&Deep等，这些模型可以建模高阶的特征交互来提升模型的预估效果。对于深度学习类的CTR预估模型，大都基于三层的设计范式：Embedding层、特征交互（FI）层和预估层。在这种设计范式下，绝大多数的工作针对特征交互层展开，如xDeepFM、DCN等，对于Embedding层的研究却很少。但在实际训练过程中，大多数CTR模型面临的一个问题是：出现频率高的特征对应的Embedding会被充分学习，出现次数低的特征对应的Embedding无法被充分学习，进一步导致模型的表现是次优的。如在Frappe和ML-tag数据集中，可以看到明显的“长尾”现象，如下图所示：

当然也有一些工作从特征表示的角度入手进行优化，在模型中引入了特征重要度模块来增强其表示（如FEN，Duel-FEN），但额外模块的引入会带来额外的学习参数以及线上推理耗时，同时，这些模型仅通过监督信号来优化特征表示，论文认为这也是远远不够的。

因此，从特征表示优化的角度出发，针对现有模型的一些问题，将多种对比学习的损失引入到模型当中，接下来对具体方法进行介绍。

2、CL4CTR介绍

论文提出了一种CTR预估中的对比学习框架CL4CTR，整体如下图所示：

预估部分的内容就不介绍了，主要对三种对比学习损失进行介绍。

2.1 Contrastive Loss

这一部分引入了Contrastive Moudle，基于数据增强的思路，对样本的embedding进行扰动，构造相似的正例样本，相似的embedding在经过相同的特征交互层和映射层之后，得到的结果也应该是相近的。

对于embedding扰动的方式，论文提出了三种方法，分别是随机mask，按特征mask，按维度mask，三种方式如下图所示：

对于扰动后的样本对，经过特征交互层和映射层之后，希望其得到的向量表示越近越好，数学表示如下：

2.2 Feature Alignment And Field Uniformity Loss

为了确保高频特征和低频特征都能够得到有效的学习，受CV和NLP领域中的思路的启发，通过引入正负样本对，引入alignment和uniformity两个约束来实现。针对CTR预估场景，本文将同一个field的特征类比为正样本对，不同field的特征类比为负样本对，在这样的假定下，Feature Alignment即来自相同域的embedding尽可能接近，Field Uniformity即来自不同域的特征embedding尽可能远。数学表示如下：