美文网首页
马尔可夫决策过程

马尔可夫决策过程

作者: 蓝不多山 | 来源:发表于2017-12-06 09:25 被阅读0次

    四要素,SMAR-P

    state 状态,系统的状态集合

    model 模型 状态经过动作后的转移 T(S,a,S')

    action 可以执行的动作集合

    reward 某个动作的奖励,可以是R(s),R(s,a),R(s,a,s')

    这样的一个过程,要求解的是一个行动策略

    P(s)->a, 使得奖励最大化。隐含的假设是时间无尽

    相关文章

      网友评论

          本文标题:马尔可夫决策过程

          本文链接:https://www.haomeiwen.com/subject/alckixtx.html