美文网首页
阿里巴巴强化学习rank

阿里巴巴强化学习rank

作者: 数据小新手 | 来源:发表于2018-12-26 11:40 被阅读0次

期望的成交价作为reward m(h_t+1)

折扣因子为1

如果用户购买了物品,得到reward。状态变为terminal state。

Conversion Probability: B(ht )用户看到了ht发送了转化的概率

Abandon Probability: 用户看到了ht 离开session的概率

ContinuingProbability: 用户继续浏览搜索结果。
deterministic policy gradient 方法来学习最佳的的排序策略(动作空间比较多,用stochastic的方法会增大计算)

ref:
Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application

相关文章

网友评论

      本文标题:阿里巴巴强化学习rank

      本文链接:https://www.haomeiwen.com/subject/jzfhlqtx.html