2019-04-20派森学习第152天

作者: 每日派森 | 来源:发表于2019-04-20 20:53 被阅读0次

继续摸索一下强化学习

看看Q学习的伪代码：

1.初始化价值表 ‘Q(s, a)’.

2.观察当前的状态值 ‘s’.

3.基于动作选择一个策略（例如，epsilon贪婪）作为该状态选择的动作.

4.根据这个动作，观察回报价值 ’r’ 和下一个新的状态 s.

5.使用观察到的奖励和可能的下一个状态所获得的最大奖励来更新状态的值。根据上述公式和参数进行更新。

6.将状态设置为新的状态，并且重复上述过程，直到达到最终状态。

Q学习的简单描述可以总结如下：

流程图

网友评论

本文标题：2019-04-20派森学习第152天

本文链接：https://www.haomeiwen.com/subject/mrzlgqtx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！