esmm

作者: 张知道q | 来源:发表于2021-01-20 19:32 被阅读0次

推荐系统 - ESMM模型
esmm
论文阅读：ESMM
推荐论文阅读之ESM2
ESMM:Entire Space Multi-Task Mod
推荐系统论文阅读（十二)-阿里巴巴的多任务学习模型ESMM
推荐系统论文阅读（十五)-阿里巴巴：多任务学习模型 ESMM2

参考文献：

https://guyuecanhui.github.io/2019/11/09/paper-2018-ali-esmm/

https://blog.csdn.net/sinat_15443203/article/details/83713802

https://blog.csdn.net/m0_37870649/article/details/87378906

业务中经常会遇到CVR的问题，无论是后验转化，还是购买转化，都是一个稀疏性样本的学习

现阶段，普通的模型，都是学习点击后行为，如点击且转化为1，点击不转化为0，很显然，这种构造样本的方式天然存在bias，serving阶段，需要预估的item包括了曝光未点击的行为，由于模型并没有见过这种样本，所以大概率是无法预估准确的

如果用真实分布进行训练，即曝光点击且转化的为1，其他为0，这样数据就特别稀疏，即使做大量的负采样，效果也不会好，因为正负样本比例太不均匀了。

通常解决办法有几种：

1、加大样本，通常是拉长时间窗口，正样本通过历史数据补齐，负样本则随机采样，争取获得较多的正样本学习。

2、MTL shared-bottom多个目标共享，学习底层embedding，如esmm等方式。

今天着重讲esmm

文章在已有工作的基础上，提出使用多任务学习的框架，使用所有展示->点击->转化数据进行训练，将 CVR 预测问题转变为同时预测 CTR 和 CTCVR 的问题。由于使用所有展示样本，因此不存在 SSB 问题（非有效曝光）；在多任务学习下共享 embedding 向量，实际上是一种参数迁移学习，可以有效的解决 DS 问题（数据稀疏）。