强化学习 10: 实践中的一些技巧

作者: 不会停的蜗牛 | 来源:发表于2018-11-27 22:47 被阅读52次

    在实践中有时候为了达到更好的效果需要用一些技巧。

    Practical Reinforcement Learning

    1. 我们知道在交叉熵方法中,例如进行一百次实验,那么只需要选择其中最好的25次。这样的采样其实是效率很低的。

    所以可以用一些小窍门来让它执行得更高效一些。例如可以重新利用一下过去的3到5次迭代中的样本,即不需要每次都采样几百次几千次,也许可以只采样20次,然后剩下的80次是利用之前的样本。

    2. 交叉熵方法还有一个问题是,有些时候会陷入局部最优的情况。例如有一些神经网络结构会导致它产生梯度爆炸,那么 agent 就很大可能不会遇见零概率的情况。

    在强化学习中这个问题是很糟糕的,因为如果没有概率为零的 action,就意味着 agent 会错过某些 action 和 state,因为从来没有采取过这个 action,就可能导致遇见的只是一个局部最优解,真正的最优解还没有机会遇见。有一种最简单的解决方法是对熵做正规化。

    3. 对于交叉熵方法,很容易应用并行算法。例如我们要对视频游戏采样1000次,就可以并行地进行采样。

    4. 还有一个情况是,如果我们不想仅仅依赖于当前的观察,可以用一些神经网络结构来记忆存储,存储前面的一些有用的信息,这个会在后面学习。


    学习资料:

    Practical Reinforcement Learning

    推荐阅读历史技术博文链接汇总

    http://www.jianshu.com/p/28f02bb59fe5

    也许可以找到你想要的:

    [入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]


    Hello World !

    This is不会停的蜗牛Alice !

    🐌 要开始连载强化学习系列啦!

    今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

    相关文章

      网友评论

      本文标题:强化学习 10: 实践中的一些技巧

      本文链接:https://www.haomeiwen.com/subject/lyxoqqtx.html