q-learning的步骤:
1、初始化Q-table , Q(s,a)可以设为0
2、定义初始状态state,s
3、根据策略π选择动作action,a
4、实施动作action,a
5、计算实施动作a所获得的reward
6、更新Q-table
Q函数:学习动作值函数,返回某状态下执行某动作的未来期奖励望值
使用Bellman方程来更新Q-table
最终得到的是一个可以使用的Q-table
因为初始值都为0,无法决策,可以引入探索机制
q-learning的步骤:
1、初始化Q-table , Q(s,a)可以设为0
2、定义初始状态state,s
3、根据策略π选择动作action,a
4、实施动作action,a
5、计算实施动作a所获得的reward
6、更新Q-table
Q函数:学习动作值函数,返回某状态下执行某动作的未来期奖励望值
使用Bellman方程来更新Q-table
最终得到的是一个可以使用的Q-table
因为初始值都为0,无法决策,可以引入探索机制
本文标题:Q-learning
本文链接:https://www.haomeiwen.com/subject/ibbephtx.html
网友评论