Model-based强化学习通过一个代理(agent)来尝试理解环境,并且建立模型来表示这个代理。这个模型希望学习到两个函数:
- 状态转移函数(transition function from states )
- 报酬函数(reward function )
通过这个模型,代理可以进行根据它进行推导和行动。
Model-free强化学习则是直接学习策略(policy),相关的算法有Q-learning、policy gradient等。
一个简单的判断标准是:如果训练之后,代理必须通过预测下一个状态和报酬来采取行动,那么就是model-based强化学习算法,否则就是model-free强化学习算法.
网友评论