美文网首页
阿里巴巴强化学习rank

阿里巴巴强化学习rank

作者: 数据小新手 | 来源:发表于2018-12-26 11:40 被阅读0次

    期望的成交价作为reward m(h_t+1)

    折扣因子为1

    如果用户购买了物品,得到reward。状态变为terminal state。

    Conversion Probability: B(ht )用户看到了ht发送了转化的概率

    Abandon Probability: 用户看到了ht 离开session的概率

    ContinuingProbability: 用户继续浏览搜索结果。
    deterministic policy gradient 方法来学习最佳的的排序策略(动作空间比较多,用stochastic的方法会增大计算)

    ref:
    Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application

    相关文章

      网友评论

          本文标题:阿里巴巴强化学习rank

          本文链接:https://www.haomeiwen.com/subject/jzfhlqtx.html