推荐系统遇上深度学习(一二二)-[阿里]通过孪生掩码层来高效的学

1、背景

大多数的推荐系统模型遵循Embedding + MLP的范式，其中Embedding层的参数往往占模型参数量的90%以上，因此Embedding层对于效果的提升非常重要。

标准的Embedding层将每个离散特征映射为相同长度的向量，这种方法主要存在两方面的问题。一方面，离散特征的不同取值在数据中的出现频次是相差巨大的，对于高频次的特征取值，应当使用长度更长的Embedding向量来表示更丰富的信息，而对于低频次的特征取值，如果Embedding向量过长，则容易导致过拟合。因此，如果对所有特征取值采用相同的长度会降低Embedding学习的有效性。另一方面，相较于灵活的Embedding长度处理方式，定长的方式需要的存储空间也是更大的。

针对标准的定长Embedding处理方式存在的问题，有一些工作开始研究不定长的处理方式。这些方法主要可以分为两类。第一类是基于规则的方法，对于频次高的特征，设置更长的Embedding长度，对于频次低的特征，设置较低的Embedding长度。这类方法的主要问题是较为依赖人工经验。第二类是基于神经架构搜索（Neural architecture search ，简称NAS）的方法，这种方法从候选的Embedding长度中寻找每个特征最适合的Embedding长度，但候选集往往会被限制在有限的范围内。同时，上述说的两类方法都需要从头开始训练来找到最适合的Embedding长度，对于模型特征向量的热启动（warm starting）并不友好。

针对上述方法的问题，论文设计了孪生的自适应掩码层（AMTL）来计算每个特征保留的embedding长度的大小，在提升精度的同时，还能有效节省embedding的存储空间并很好的支持模型特征向量的热启动，下面一张图概括了现有的处理方式以及本文提出的方法，本文的方法将在第二节进行介绍。

2、方法介绍

2.1 基本思路

论文提出的基本思路是在定长Eembdding的基础上，针对每一个特征取值对应的Embedding，学习一个掩码向量，掩码向量的定义如下：

也就是说，在实际应用时，对特征f_i的Embedding向量e_i，其0到k_i的索引下对应的取值保留，大于k_i的索引下对应的值置0。这种方式有以下几点优势：

1）存储时，对特征f_i的Embedding向量e_i，只需要存储k_i+1长度的向量即可，线上应用时用0补齐为相同的长度，可减少存储空间
2）由于Embedding的初始化是定长长度的向量，掩码向量通过其他部分的网络单独学习，可以通过warm starting的方式对Embedding进行初始化。

那么接下来的问题是，如何学习掩码向量？论文设计了孪生的自适应掩码层（Adaptively-Masked Twins-based Layer，以下简称AMTL），咱们在下一小节进行介绍。

2.2 AMTL介绍

AMTL的架构如下图所示：

对AMTL来说，学习方向主要是基于特征的出现频次，因此输入特征主要是频次相关特征，输出为one-hot向量，其中1位置所在的索引，其实就是上一小节中所提到的k_i。那么基于k_i，就可以生成对应的掩码向量m_i。

从上到下来介绍一下AMTL的计算过程。对于频率向量，分别输入到两个孪生的自适应掩码层，分别计作h-AML和l-AML，输出和Embdding相同长度的向量。这种设计思路的主要原因是考虑到如果只是用单一的AML，参数的学习会受频率高的特征的主导，因此设计h-AML和l-AML，分别用于高频特征和低频特征的掩码向量的学习。可以看到，两个AML的输出，会进行加权，而权重基于特征的出现频次，如果出现频次高，权重α大于0.5，h-AML的输出占据主导，如果出现频次低，权重α<0.5，则l-AML的输出占主导。