马尔科夫决策过程

作者: xuweiqiang | 来源:发表于2019-07-04 19:05 被阅读0次

马尔科夫决策过程

在理解强化学习之前,我们先了解我们要解决什么样的问题。其实强化学习过程就是优化马尔科夫决策过程,它由一个数学模型组成,该模型在代理的控制下对随机结果进行决策。

马尔科夫决策过程

代理可以执行某些动作,例如上下左右移动,这些动作可能会得到一个回报,回报可以是正数也可以是负数,它会导致总分数变动。同时动作可以改变环境并导致一个新的状态,然后代理可以执行另外一个动作。状态、动作和回报的集合、转换规则等,构成了马尔科夫决策过程。

相关文章

网友评论

    本文标题:马尔科夫决策过程

    本文链接:https://www.haomeiwen.com/subject/izqdhctx.html