Reinforcement Learning: An Intro

作者: Canala | 来源:发表于2019-10-06 21:22 被阅读0次

Reinforcement Learning An Intro
Reinforcement Learning: An Intro
强化学习
AI technique I should learn in r
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
从零开始强化学习（一）——基础概念
reinforcement learning 学习资源推荐
【5分钟 Paper】Deep Reinforcement Le
2018-11-16 Tips for training DQN
Policy network

１.强化学习中的basic elements：

policy --相当与环境和动作之间的一个映射，在给定的state下执行何种action是由policy决定的。policy的所有可能组成一个policy空间，优化目标就是在这个巨大的空间中，学习到某一种最优的policy。

reward function -- 也可以看成是一个映射，关于当前的动作，或者当前环境和当前动作的pair的好不好的一个评价。属于立即评价，只考虑当前这一步的好坏。

value function -- 和上面的reward function对比着看，这一步考虑的是当前环境状态的长远优势，也就是以当前状态为起点，以后的多个时间点之后的各个状态的reward之和。如何更好的估计这个值，是几乎所有增强学习问题的解决重点和难点。这个也是如何评定一个policy好坏的标准。也是把增加学习和evoluation method （例如遗传算法）区别开的地方。

model of environment -- 对环境的建模。这个模型有点预测环境的走向的意思。比如，假如我有了这个模型，我可以知道在当下的环境下，下一步的环境状态和reward是什么。这样，我就不必去真实的走这一步，就已经知道结果了，也就是不用非得试错了。这是个新的发展方向。

关于evolution method 要多说点：它和强化学习的区别在于，它不利用任何你的过程信息，只使用结果。比如我采用某一个policy,我就用这固定的policy和环境进行多次实验，看看最后的结果概率分布，然后知道这个policy有多大概率赢。然后换下一个，继续大量实验。最后在policy空间里找到一个最优的。它的缺点是忽略了大量的实验过程信息，也即根本没有考虑到value function。