美文网首页萌新的机器学习
强化学习最优策略解法

强化学习最优策略解法

作者: 初七123 | 来源:发表于2018-08-05 22:57 被阅读1次

强化学习问题

增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,其在任意初始状态下,都能获得最大的回报值

S为状态集
A为动作集
P为状态转移矩阵
R为回报函数
r为回报衰退

本文概述动态规划、蒙特卡洛和时间差分方法求解最优策略

动态规划

通用策略迭代

  1. 先从一个策略π0开始,
  2. 策略评估(Policy Evaluation) - 得到策略π0的价值vπ0
  3. 策略改善(Policy Improvement) - 根据价值vπ0,优化策略π0。
  4. 迭代上面的步骤2和3,直到找到最优价值v∗,因此可以得到最优策略π∗(终止条件:得到了稳定的策略π和策略价值vπ)。

算法描述

蒙特卡罗方法

对于无模型的马尔可夫决策问题
可用蒙特卡洛随机的方法估计值函数
其策略迭代框架和动态规划方法类似

值函数的估计
首先随机模拟决策的运行
得到统计数据

轨迹中访问一次

轨迹中多次访问

探索利用
如何获得充足的经验是无模型强化学习的核心所在。

评估的时候使用平均的方式
采样的时候用ε-greedy

On-policy MC和Off-policy MC

On-policy
同策略是指产生数据的策略与评估和要改善的策略是同一个策略

Off-policy
异策略是指产生数据的策略与评估和改善的策略不是同一个策略,异策略MC也不是随便选择的,而是必须满足一定的条件。这个条件简单说就是:数据生成策略产生的状态要覆盖评估和改进策略的所有可能性。

同策略MC虽然更为简单方便,但实际应用中,离策略更为普遍。因此实际情况下,我们往往可以根据一些人为经验的策略给出一系列试验。为了使用异策略,就需要用重要性采样

重要性采样

对于求期望问题

设重要性权重

重要性采样

加权重要性采样

评估策略时候,一次试验的概率为 p(x)

采样时,一次试验的概率为 q(x)

所以得到异策略的重要性权重

于是重要性采样下值函数估计为

对于加权重要性采样

TD时间差分

时间差分也是一种无模型的强化学习算法
跟蒙特卡罗方法相比,时间差分方法只用到了一步随机状态和动作,因此TD目标的随机性比蒙特卡罗方法中的Gt要小,因此其方差也比蒙特卡罗方法的方差小。

单步TD更新方法

可参考Q-Learning或者Sarsa
https://www.jianshu.com/p/f4ffb77eca90

Sarsa方法是同策略,而Qlearning方法是异策略。即行动策略采用 e-greedy
贪婪策略,而目标策略采用贪婪策略。

参考

天津包子馅的blog
飞翔的拖拉机的blog
Reinforcement Learning, An Introduction

相关文章

网友评论

    本文标题:强化学习最优策略解法

    本文链接:https://www.haomeiwen.com/subject/qarivftx.html