推荐系统遇上深度学习(一二四)-[美团]面向大规模推荐系统的双重

1、背景

在大规模工业界推荐系统的召回阶段，大都采用的是双塔模型，即通过query tower（user tower）和item tower分别得到query（user）和item的向量表示，并通过cosine距离计算二者的相似度，进而选择相似度高的item进入到排序阶段。传统的双塔模型面临以下两方面的问题：

1）两个塔之间缺乏信息交互，影响模型的收益空间
2）在美团首页推荐或其他的推荐场景下，item的种类是十分丰富的且非常不平衡的，那么模型的训练由主要的种类所主导，对于数量较小的种类的item效果会受到影响。

为了解决以上两方面的问题，论文提出了双重增强双塔模型（Dual Augmented Two-tower Model，简称DAT）。论文设计了Adaptive-Mimic Mechanism，来为每一个query和item学习一个增强向量，增强向量代表了来自另一个塔的有用信息；同时，论文还在训练阶段引入了Category Alignment Loss来缓解类别不平衡的问题，一起来看一下。

2、DAT模型介绍

模型的整体结构如下图所示：

接下来，根据如上的模型结构图，我们进行详细的介绍：

2.1 Embedding layer

Embedding层无需进行过多的介绍，将query和item对应的离散特征转换为对应的Embedding。

2.2 Dual Augmented layer

对于每一个query和候选item，赋予一个对应的增强向量a_u和a_v，并与Embedding层得到的Embedding进行拼接，作为两个塔的输入。如对于uid=253，city=SH，gender=male的用户，以及iid=149，price=10，class=cate的item，对应的模型输入为：

随后，两个输入向量输入到各自的塔中，经过多层全连接网络，以及最后的L2标准化层，得到输出Embedding表示，计作p_u和p_v：

那么增强向量代表什么信息呢？同时如何对增强向量进行训练呢？论文设计了Adaptive-Mimic Mechanism (AMM)，其中最主要的是设计了mimic loss，该loss的主要作用是让增强向量来拟合相应query或着item在另一个塔中所有正样本的输出向量表示。感觉比较绕，但通过下面的公式可以更加清楚的理解：

以loss_u为例，如果label即y=0，则不产生损失，若y=1，则增强向量与另一个塔的输出向量越接近，则损失越小。也就是说，增强向量是对该query或item所有可能匹配的正样本信息的综合表示。而在训练增强向量的过程中，需要使用stop gradient策略来冻结p_u和p_v。

2.3 Category Alignment

在工业场景下，不同item的类型多种多样，而且分布十分不均匀，双塔模型对于数量较少的类别的效果会较差。为了解决这个问题，论文在训练阶段引入了Category Alignment Loss (CAL)，将从数量较多的类别中学习到的信息迁移到数量较小的类别中。CAL计算主类别和其他类别的协方差矩阵二阶矩，降低类别间的差距：