期望的成交价作为reward
折扣因子为1
如果用户购买了物品,得到reward。状态变为terminal state。
Conversion Probability: B(ht )用户看到了ht发送了转化的概率
Abandon Probability: 用户看到了ht 离开session的概率
ContinuingProbability: 用户继续浏览搜索结果。
deterministic policy gradient 方法来学习最佳的的排序策略(动作空间比较多,用stochastic的方法会增大计算)
ref:
Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application
网友评论