本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning
本文从 深度强化学习(9)Fitted Q-iteration 过渡到 Q-Learning。
Fitted Q-iteration
Fitted Q-iteration 是一个 Off policy Learning, 因为他用到了不同的Policy。 在生成Transaction 的时候, 用的policy 和并不一定用的是最大Q值的 Policy。
image.pngOnline Q-iteration
这是 Online Q-iteration
Online Q-iteration在第1步的时候, 它选取 的方式没有特意的规定, 因此就留下了很多灵活性。 这样每选择一批样本, 就可以进行一次 Batch Traning。
Online Q-iterationExploration
在强化学习中,Exploration 指的是算法有机会以一定几率, 不以当前最佳收益选择行动, 这样可以在训练前期增加找到最优点的可能性。
【哲思】人生在年轻的时候, 就应该增加更多的Exploration, 因为年轻的时候的Policy 往往就是不成熟的。但是看到的最好结果, 其实未必是真的最好结果, 只是一个不完善的Policy给出的建议。
之所以在这里提出这个问题, 是因为,我们刚才讨论的选择最好outcome 的策略是 Deterministic 的, 这里没有任何随机性,因此就不存在 exploration。
image.png我们可以用其他手段加入一些不确定性:
- greedy
策略有一定的几率选择非最优的 Action
2 Boltzmann exploration
image.png这里有点像 Softmax, 一个 Action 被选择的概率, 正比于 Q值,好的 Action 会有更大几率被选中, 但是还是有不确定性存在。
网友评论