Reinforcement Learning - Chapter

作者: WangChen100 | 来源:发表于2018-10-07 23:27 被阅读0次

Reinforcement Learning - Chapter
Reinforcement Learning - Chapter
Reinforcement Learning - Chapter
Reinforcement Learning - Chapter
Reinforcement Learning - Chapter
强化学习
AI technique I should learn in r
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
从零开始强化学习（一）——基础概念
reinforcement learning 学习资源推荐

强烈推荐结合《Reinforcement Learning：An Introduction》Second edition阅读！！！

Monte Carlo Methods

理论上动态规划算法是没有问题的，但实践中却发现它的应用具有很大的限制，这源自于它本身的理论架构。
1、动态规划算法用于求解基于模型的MDP问题。
基于模型指的是基于概率模型，因为动态规划算法需要知道P(a|s)，即已知当前状态该采取什么动作或动作的概率分布。
模型的准确性直接影响到强化学习的结果，而精确模型在现实中是非常难实现的。
2、动态规划算法的实现上来说是从未来往回推测现在的决策。
这样的计算方式限制了它的应用。以打游戏为例，我们不可能要求游戏倒着打，不能够预知到未来游戏局面来决策。

5.1 Monte Carlo Prediction

基于上述限制，我们重新审视value的计算公式：

式4_3.png

这里求得是期望，如果不知道概率分布，概率论学过，那我们可以通过样本估计这个值。通过这种方式不需要知道概率模型，也就被称为无模型的强化学习算法。

网友评论

本文标题：Reinforcement Learning - Chapter

本文链接：https://www.haomeiwen.com/subject/xjpdgftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Reinforcement Learning - Chapter

Monte Carlo Methods

5.1 Monte Carlo Prediction

相关文章

Reinforcement Learning - Chapter

Reinforcement Learning - Chapter

Reinforcement Learning - Chapter

Reinforcement Learning - Chapter

Reinforcement Learning - Chapter

强化学习

AI technique I should learn in r

【ICLR2020】通过强化学习和稀疏奖励进行模仿学习

从零开始强化学习（一）——基础概念

reinforcement learning 学习资源推荐

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读