美文网首页
强化学习中的model-free和model-based算法

强化学习中的model-free和model-based算法

作者: Jaydu | 来源:发表于2019-04-17 17:07 被阅读0次

    Model-based强化学习通过一个代理(agent)来尝试理解环境,并且建立模型来表示这个代理。这个模型希望学习到两个函数:

    1. 状态转移函数(transition function from states T:S\mapsto S
    2. 报酬函数(reward function R
      通过这个模型,代理可以进行根据它进行推导和行动。

    Model-free强化学习则是直接学习策略(policy),相关的算法有Q-learning、policy gradient等。

    一个简单的判断标准是:如果训练之后,代理必须通过预测下一个状态和报酬来采取行动,那么就是model-based强化学习算法,否则就是model-free强化学习算法.

    相关文章

      网友评论

          本文标题:强化学习中的model-free和model-based算法

          本文链接:https://www.haomeiwen.com/subject/klgnwqtx.html