强化学习问题
增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,其在任意初始状态下,都能获得最大的回报值
![](https://img.haomeiwen.com/i1507799/aee0587947ace718.png)
S为状态集
A为动作集
P为状态转移矩阵
R为回报函数
r为回报衰退
本文概述动态规划、蒙特卡洛和时间差分方法求解最优策略
动态规划
通用策略迭代
- 先从一个策略π0开始,
- 策略评估(Policy Evaluation) - 得到策略π0的价值vπ0
- 策略改善(Policy Improvement) - 根据价值vπ0,优化策略π0。
- 迭代上面的步骤2和3,直到找到最优价值v∗,因此可以得到最优策略π∗(终止条件:得到了稳定的策略π和策略价值vπ)。
算法描述
![](https://img.haomeiwen.com/i1507799/97421ab179a854a0.png)
蒙特卡罗方法
对于无模型的马尔可夫决策问题
可用蒙特卡洛随机的方法估计值函数
其策略迭代框架和动态规划方法类似
值函数的估计
首先随机模拟决策的运行
得到统计数据
轨迹中访问一次
![](https://img.haomeiwen.com/i1507799/75cd56a440ab2428.png)
轨迹中多次访问
![](https://img.haomeiwen.com/i1507799/006bef4c05e940bd.png)
探索利用
如何获得充足的经验是无模型强化学习的核心所在。
评估的时候使用平均的方式
采样的时候用ε-greedy
![](https://img.haomeiwen.com/i1507799/8bbe9094baf0dadb.png)
On-policy MC和Off-policy MC
On-policy
同策略是指产生数据的策略与评估和要改善的策略是同一个策略
Off-policy
异策略是指产生数据的策略与评估和改善的策略不是同一个策略,异策略MC也不是随便选择的,而是必须满足一定的条件。这个条件简单说就是:数据生成策略产生的状态要覆盖评估和改进策略的所有可能性。
同策略MC虽然更为简单方便,但实际应用中,离策略更为普遍。因此实际情况下,我们往往可以根据一些人为经验的策略给出一系列试验。为了使用异策略,就需要用重要性采样
对于求期望问题
![](https://img.haomeiwen.com/i1507799/9e8de77ebd9764ae.png)
设重要性权重
![](https://img.haomeiwen.com/i1507799/d976d9e84b7ab2ce.png)
重要性采样
![](https://img.haomeiwen.com/i1507799/1e9aeb47c62e447c.png)
加权重要性采样
![](https://img.haomeiwen.com/i1507799/75e92a98fe52126a.png)
评估策略时候,一次试验的概率为 p(x)
![](https://img.haomeiwen.com/i1507799/645cd2757c401800.png)
采样时,一次试验的概率为 q(x)
![](https://img.haomeiwen.com/i1507799/8af78ce2123390cf.png)
所以得到异策略的重要性权重
![](https://img.haomeiwen.com/i1507799/f1e050189d656453.png)
于是重要性采样下值函数估计为
![](https://img.haomeiwen.com/i1507799/2afa4e3c0ce7423e.png)
对于加权重要性采样
![](https://img.haomeiwen.com/i1507799/3c8f4f0560499af3.png)
TD时间差分
时间差分也是一种无模型的强化学习算法
跟蒙特卡罗方法相比,时间差分方法只用到了一步随机状态和动作,因此TD目标的随机性比蒙特卡罗方法中的Gt要小,因此其方差也比蒙特卡罗方法的方差小。
单步TD更新方法
![](https://img.haomeiwen.com/i1507799/fd145a9cb50046d9.png)
可参考Q-Learning或者Sarsa
https://www.jianshu.com/p/f4ffb77eca90
Sarsa方法是同策略,而Qlearning方法是异策略。即行动策略采用 e-greedy
贪婪策略,而目标策略采用贪婪策略。
参考
天津包子馅的blog
飞翔的拖拉机的blog
Reinforcement Learning, An Introduction
网友评论