美文网首页
论文阅读之“Entire Space Multi-Task Mo

论文阅读之“Entire Space Multi-Task Mo

作者: 妖皇裂天 | 来源:发表于2019-01-29 18:49 被阅读0次

      论文地址是https://arxiv.org/pdf/1804.07931.pdf。这篇论文主要是针对传统CVR模型遇到的问题提出新的改进。CVR任务中最大的困难就在于数据了,一般来说点击样本集是浏览样本集的一个很小的部分,而转换样本集又是点击样本集中的一个很小的部分,因此CVR任务中一个重要的挑战就是数据稀疏(data sparsity)问题。同时,CVR任务训练时的数据集是点击样本集,但是在预测时却是对所有的浏览样本集中的用户进行预测,这就带来了样本选择偏差(sample selection bias)问题。传统解决SSB问题的方法有下面这些:

    1. 对稀疏的正样本进行过采样,这样有助于减轻数据稀疏性,但是对采样率很敏感
    2. 采用随机抽样策略来选未点击的浏览样本作为负样本,这样通过引入新的数据来稍微消除SSB,但是会导致a consistently underestimated prediction(我还不太清楚这个怎么理解)
    3. 通过拒绝采样拟合真实分布来解决CTR建模中的SSB问题,但是可能会导致数值不稳定

    论文中表示之前的方法都没有探索用户顺序行为信息,也就是impression \to click \to conversion这个过程中的顺序依赖,对此作者提出Entire Space Multi-task Model。传统方法是建模直接预测pCVR,但是ESMM训练了两个模型,一个模型预测pCVR(也就是p(conversion|click, impression)),另一个模型预测pCTR(也就是p(click|impression)),并将两个预测结果相乘预测pCTCVR(也就是p(conversion,click|impression)),即\begin{align} p(click=1,conversion=1|impression)= \; &p(click=1|impression) \; * \\ &p(conversion=1|click=1,impression) \end{align}ESMM有两个任务,一个是预测pCTCVR,一个是预测pCTR,而真正需要的pCVR只是模型的中间变量。所以模型的优化目标是\begin{align} L(\theta_{cvr},\theta_{ctr}) &= \sum_{i=1}^N l(y_i,f(x_i;\theta_{ctr})) \\ &+ \sum_{i=1}^N l(y_i \&z_i,f(x_i;\theta_{ctr})*f(x_i;\theta_{cvr})) \end{align}其中,第一项是为了预测pCTR,而第二项是为了预测pCTCVR,而最终需要预测的pCVR,只是模型的中间值。ESMM的模型结构如下:

    ESMM模型结构.png ESMM的优势在于:
    1. 传统CVR模型训练集是点击样本集,而ESMM模型训练集是浏览样本集。这样模型就不用再担心SSB问题了
    2. ESMM模型中两个任务的embedding层是共享参数的,更大规模的浏览数据可以被用来训练embedding向量了,而传统CVR模型只能用点击数据来训练embedding向量,这样DS问题也得以解决。
    3. ESMM并不是直接预测pCTCVRpCTR,然后再将两者相除得到pCVR,而是将pCVR作为模型中间变量直接输出,这样就可避免除法操作可能带来的数值不稳定问题。

    相关文章

      网友评论

          本文标题:论文阅读之“Entire Space Multi-Task Mo

          本文链接:https://www.haomeiwen.com/subject/neixsqtx.html