美文网首页
深度强化学习(10)Q-Learning

深度强化学习(10)Q-Learning

作者: 数科每日 | 来源:发表于2022-02-13 13:09 被阅读0次

本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning


本文从 深度强化学习(9)Fitted Q-iteration 过渡到 Q-Learning。

Fitted Q-iteration

Fitted Q-iteration 是一个 Off policy Learning, 因为他用到了不同的Policy。 在生成Transaction 的时候, 用的policy 和并不一定用的是最大Q值的 Policy。

image.png
Online Q-iteration

这是 Online Q-iteration

Online Q-iteration

在第1步的时候, 它选取 a_{i} 的方式没有特意的规定, 因此就留下了很多灵活性。 这样每选择一批样本, 就可以进行一次 Batch Traning。

Online Q-iteration
Exploration

在强化学习中,Exploration 指的是算法有机会以一定几率, 不以当前最佳收益选择行动, 这样可以在训练前期增加找到最优点的可能性。

【哲思】人生在年轻的时候, 就应该增加更多的Exploration, 因为年轻的时候的Policy 往往就是不成熟的。但是看到的最好结果, 其实未必是真的最好结果, 只是一个不完善的Policy给出的建议。

之所以在这里提出这个问题, 是因为,我们刚才讨论的选择最好outcome 的策略是 Deterministic 的, 这里没有任何随机性,因此就不存在 exploration。

image.png

我们可以用其他手段加入一些不确定性:

  1. \epsilon greedy
e 贪婪

策略有一定的几率选择非最优的 Action

2 Boltzmann exploration

image.png

这里有点像 Softmax, 一个 Action 被选择的概率, 正比于 Q值,好的 Action 会有更大几率被选中, 但是还是有不确定性存在。

相关文章

网友评论

      本文标题:深度强化学习(10)Q-Learning

      本文链接:https://www.haomeiwen.com/subject/zyeflrtx.html