MDP是强化学习问题在数学上理想的形式,对于有限马尔可夫决策序列(3.1)

t时刻状态和回报仅依赖于t-1时刻的状态和动作(3.2)

假设移动机器人有{high, low}两种电量状态,而有{search, wait, rechart} 三种可执行动作,则有限MDP可以表示为

我们的目标是使得总的回报最大化,有些任务的T是无限大,所以很容易得到每种选择的最大回报都是无限的,所以选择带有折扣因子的总回报

以及递推表达式

对于杆子平衡问题,如果设置没掉下去reward=1,则会导致最大回报无穷大,所以可以把杆子平衡问题视为连续任务,没掉下去reward=0,掉下去则为-1,所以最大回报等于 -rK(K为保持平衡的最长时间)

若R恒等于+1,对于不同起点的总回报可以写成

对于MDPs,有在某策略下的价值函数

同时动作价值可以表示为

可以用蒙特卡洛的方式(即先用策略生成N个轨迹,求出v(s)的平均近似值)求解这两个式子,如果状态空间过大还可以用函数近似的方式来表达
展开价值函数得到Bellman方程

取回报的最大值得到最优Bellman方程


网友评论