美文网首页
embedding技术(1): Res-embedding fo

embedding技术(1): Res-embedding fo

作者: 阿瑟_TJRS | 来源:发表于2021-12-27 19:21 被阅读0次
    • DLP-KDD 2019


    摘要

    目前点击率 (CTR) 预测模型已经从浅层方法发展到深层神经网络, 大多数深度 CTR 模型遵循 Embedding&MLP 范式,即首先映射离散的 id 特征,例如用户访问的物品,使用嵌入模块转换为低维向量,然后学习MLP。学习嵌入对模型性能至关重要。

    在许多实际应用中,深度 CTR 模型往往泛化性能不佳,这主要是由于嵌入参数的学习。
    本文关键贡献在于: 使用兴趣延迟模型(interst delay model)对用户行为进行建模,仔细研究嵌入机制,并获得两个重要结果:
    (i)从理论上证明了属于同一用户兴趣域的物品的嵌入向量的小聚合半径将使得 CTR 模型具有良好的泛化性能
    (ii) 设计了一种新嵌入结构res-embedding。在重新嵌入模块中,每个物品的嵌入向量是两个分量的总和:(i)从基于物品的兴趣图计算的中心嵌入向量(ii)规模相对较小的残差嵌入向量

    Main Story

    嵌入模块往往以look-up table的方式实现,每个离散的特征对应于一个低维向量,模型参数从CTR任务的训练数据中学习。而嵌入模块和MLP模块的参数都是端到端的学习,那么embedding模块实际上是作为一个特征映射来执行的,并决定了后续MLP模块的输入分布
    根据数据依赖的泛化理论,输入分布将影响模型的泛化性能。因此, 嵌入模块对于深度CTR模型的泛化性能至关重要.

    在实践中,深度CTR模型的训练中普遍存在过拟合现象,特别是在具有大规模离散特征的工业应用中。我们认为,可能是嵌入模块导致泛化性能不佳。原因在于两个方面:
    (i) 在实际系统中,特征的数量可以扩展到数十亿,导致嵌入参数的数量巨大。这将提高记忆能力,但降低泛化能力。
    (ii) 在只有点击标签数据下,传统的嵌入模块可能很难学到具有高泛化能力的代表性映射。例如,在端到端训练中,两个相似物品的嵌入向量的距离可能会随着不同的初始化而发生很大的变化。

    受上述观察的启发,在本文中提出
    (i) 定量分析哪些变量参与了深度CTR模型的泛化误差边界
    (ii) 根据这种定量关系设计相应的解决方案来提高泛化能力

    Methods

    数据定义如下:

    定义D层的MLP模型如下:

    泛化误差边界(Generalization error bound) 包围半径:即反映空间的分布范围

    用户行为建模

    当用户再电商网站上浏览商品时,用户会由于不同的兴趣点击不同的商品, 基于经验和直观常识,我们假设用户兴趣在浏览过程中会持续一段时间

    每次点击可以表示为一个时间步 time step, 具有相同兴趣的时间步可以成为一个时间段 period, 称为interest delay模型。

    对于具体的某个时间步而言, 用户单个点击行为由当前用户的兴趣觉得, 从数学角度上定义\mathcal{N}_z个兴趣域(interest domain), 兴趣隐藏状态z\in \{1, 2,..., \mathcal{N}_z \}. 假设P(x)表示用户点击物品x的概率,那么该点击概率可以表示为:P(x) = \sum_z P(x|z)P(z)

    那么interest delay模型建模过程可以定义如下: 更详细的假设如下:

    论文基于以上模型进行泛化误差边界的理论分析:

    那么最终影响泛化误差的因素包含W和R_{max}. 降低embedding向量的整体范围似乎证明了在某些情况下使用embeddding层正则化的有效性。

    但这样同时降低了embedding的容量和表征能力。 而通过分别降低每个兴趣域的包围半径,可以使得同一兴趣域内在embedding空间上更近,但在不同兴趣域上存在差异,能够同时控制泛化误差和模型性能。

    基于该理论分析, 本文提出了一个原型框架: 同一兴趣域内的物品共相同的中心嵌入向量(central), 每个物品有不同的小范围的残差嵌入向量(ersidual).

    最终通过两部分向量相加,得到最终的物品表征,通过控制residual部分的范围,可以有效的降低同一兴趣域在嵌入空间上的距离,即R_{max}

    假设具有I个兴趣域和H个物品,中心向量矩阵表示为C\in \mathbb{R}^{I \times d}, P \in \mathbb{R}^{H \times I} 表示每个物品和每个域的关系, 其为0-1二元矩阵。 R\in \mathbb{R}^{H \times d} 表示物品的残差向量:


    然而,关系矩阵P是未知的,很难获得,不知道每个物品属于哪个兴趣领域。错误的P可能会给深度CTR预测模型带来更糟糕的泛化性能。有必要确定物品和兴趣领域之间的合理关系。此外,一个项目很可能不只属于一个兴趣领域。也就是说,中心嵌入的约束关系可能是软的,这意味着同一兴趣域中的物品的中心嵌入可能不完全相同,而只是更相似

    为了解决这个问题,我们重新审视假设1,并注意到一个隐藏的兴趣状态z将保持T个时间步骤来影响用户点击行为。因此,可以推导出这样一个结论:如果两个物品在用户点击行为的短期内出现得更频繁,它们就更有可能处于相同的兴趣域。从这个结论出发,定义了一个由每个物品对的共同出现频率构建的物品兴趣图(item interest graph)Z,来描述物品之间兴趣域的相似性关系

    具体实现

    使用残差向量矩阵W来表示物品和中心向量基的相关性:

    物品的中心嵌入应该是物品兴趣图中与之相连的物品的中心嵌入基础的线性组合,具体的兴趣图是基于物品共现构建的, 计算过程可以如下图所示:

    具体的g()函数有三种实现方式:

    • 线性:
    • GCN/图聚合操作:
    • 注意力机制:
    最终模型目标函数如下:

    实验结果

    • 泛化性能:


    • res-embedding对推荐性能的影响

    总结

    • 本文从推荐算法中最基础却最关键的embedding优化入手,通过理论分析对其泛化性能影响因素进行提取
    • 并在此基础上,提出res-embedding,将物品embedding拆分为中心向量和残差向量两部分

    END

    本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c

    相关文章

      网友评论

          本文标题:embedding技术(1): Res-embedding fo

          本文链接:https://www.haomeiwen.com/subject/ykvyqrtx.html