马尔科夫决策过程

作者: xuweiqiang | 来源:发表于2019-07-04 19:05 被阅读0次

    马尔科夫决策过程

    在理解强化学习之前,我们先了解我们要解决什么样的问题。其实强化学习过程就是优化马尔科夫决策过程,它由一个数学模型组成,该模型在代理的控制下对随机结果进行决策。

    马尔科夫决策过程

    代理可以执行某些动作,例如上下左右移动,这些动作可能会得到一个回报,回报可以是正数也可以是负数,它会导致总分数变动。同时动作可以改变环境并导致一个新的状态,然后代理可以执行另外一个动作。状态、动作和回报的集合、转换规则等,构成了马尔科夫决策过程。

    相关文章

      网友评论

        本文标题:马尔科夫决策过程

        本文链接:https://www.haomeiwen.com/subject/izqdhctx.html