美文网首页
强化学习一

强化学习一

作者: ZAK_ML | 来源:发表于2019-04-01 14:40 被阅读0次
    训练强化学习模型,需要和环境持续的交互,通过和环境交互来优化我们的价值函数。每次和环境交互,我们认为是一次迭代。在这个迭代中我们优化我们的目标函数。在每次和环境交互的时候,我们需要根据我们的策略选择动作。这个策略选择动作时,我们会根据历史经验得到的最优动作,有可能不是真实环境里真正最优的,因此很多时候需要探索未知动作的表现,也就是防止一些较好的但我们没有执行过的动作被错过。

    相关文章

      网友评论

          本文标题:强化学习一

          本文链接:https://www.haomeiwen.com/subject/oldvbqtx.html