强化学习之蒙特卡罗法

作者: LiBiscuit | 来源:发表于2019-12-21 11:49 被阅读0次

强化学习之蒙特卡罗法
深度强化学习DQN实现细节，入门深度强化学习
强化学习笔记（1）--概述
基础
统计学习方法——修炼学习笔记19：马尔可夫链蒙特卡罗法
强化学习基础篇（三）动态规划之基础介绍
强化学习基础知识详解
强化学习基础篇（一）强化学习入门
强化学习之Sarsa
强化学习+关系抽取论文阅读

滴！小李久违上线了~原来这周要写个年终总结的…上周比完赛丧到现在似乎情绪还是不好就拖到下周吧…补一个强化学习的知识。
——————

蒙特卡罗

基本思想

蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是以概率为基础的方法。

简单的例子：
假设我们需要计算一个不规则图形的面积，那么图形的不规则程度和分析性计算（比如积分）的复杂程度是成正比的。采用蒙特卡罗方法是怎么计算的呢？
首先你把图形放到一个已知面积的方框内，然后假想你有一些豆子，把豆子均匀地朝这个方框内撒，之后数这个图形之中有多少颗豆子，再根据图形内外豆子的比例来计算面积。当你的豆子越小，撒的越多的时候，结果就越精确。

上述的思想是一种通过采样近似求解问题的方法，在强化学习里面的蒙特卡罗的采样思路也大体如此。下面来看一下在强化学习它如何采样？

蒙特卡罗法通过采样若干经历完整的状态序列(episode)来估计状态的真实价值。所谓的经历完整，就是这个序列必须是达到终点的。
比如下棋问题分出输赢，驾车问题成功到达终点或者失败。有了很多组这样经历完整的状态序列，我们就可以来近似的估计状态价值，进而求解预测和控制问题了。

区别比较

VS 强化学习的动态规划
在动态规划中，会假设智能体已经知道关于该环境的所有信息，即完全了解 MDP（马尔可夫决策过程），而不需要和环境互动后才知道。
所以智能体知道该环境是如何决定下一状态以及如何决定奖励的。动态规划所要解决的问题就是智能体知道了环境的所有信息后，如何利用这些信息找出最优策略。
然而，蒙特卡罗法，智能体是不知道环境的动态信息的，需要和环境进行一系列的互动后才了解。它不需要对环境有完整的知识，仅仅需要经验就可以求解最优策略，这些经验可以在线获得或者根据某种模拟机制获得。
故，准确的来说，动态规划可以是一种有模型的学习，而蒙特卡罗是基于采样的模型无关的学习。

蒙特卡罗法→预测问题

预测：状态值、预测值
智能体与环境进行一系列互动的过程中，会有一系列的状态，包括动作和奖励（反馈）。此处重点探讨阶段性任务，即智能体在时间 T 遇到最终状态时，互动结束。在任何阶段，智能体的目标都是最大化期望积累奖励。

在给定一个策略后，智能体如何估算该策略的状态值和动作值？有两种方式：
1.离线策略方法(Off-Policy Method)：
用一个策略进行评估，用另一个策略来与环境进行互动。
2.异同策略方法(On-Policy Method)：
智能体通过某个策略与环境进行互动，并计算该策略的值函数。

状态值
在每个阶段中，分别计算出现某一状态（一个阶段中只出现一次）后的（折扣）回报，最后基于所有阶段取均值。该算法将状态值定义为某一状态之后的预期回报。
如果在一个阶段中，一个状态出现多次，此时有两种处理方法：
1.对所有阶段中该状态的首次经历的回报取平均值
（first MC methods）
2.对所有阶段中该状态的所有经历之后的回报取平均值
（every-visit MC methods）
举个例子：这里，我们考虑first MC methods，即在一个episode内，我们只记录s的第一次访问，并对它取平均回报。
现在我们假设有如下一些样本，取折扣因子γ=1，即直接计算累积回报，则有
根据first MC methods，对出现过状态s的episode的累积回报取均值，有Vπ(s)≈ (2 + 1 – 5 + 4)/4 = 0.5
容易知道，当我们经过无穷多的episode后，Vπ(s)的估计值将收敛于其真实值。
参考：Reinforcement Learning笔记(2)--动态规划与蒙特卡洛方法
动作值
在每个阶段中，先查看状态动作对的经历，然后计算每个状态动作对之后的回报，再取平均值。如果在一个阶段中，某一状态动作对出现多次，则处理方法与上面一样，分为只考虑首次经历和考虑所有经历。

蒙特卡罗法→控制问题（策略改进）

前面我们讲到，我们通过一些样本来估计动作值函数Q和状态值函数V，并且在未来执行估值最大的动作。
这里就存在问题，假设在某个确定状态s0下，能执行a0, a1, a2这三个动作，如果智能体已估计了两个Q函数值，如Q(s0,a0), Q(s0,a1)，Q(s0,a0)>Q(s0,a1)，那么它在未来将只会执行一个确定的动作a0。
这样我们就无法更新Q(s0,a1)的估值和获得Q(s0,a2)的估值了，无法保证Q(s0,a0)就是s0下最大的Q函数。
为了解决这个问题，我们需要对策略进行改进。和动态规划对比，动态规划中的更新策略是通过最大化动作值函数获得的，这种方法称为贪婪策略。在蒙特卡洛方法中仍然使用贪婪策略的话，会使智能体很容易掉入眼前的陷阱中，而忽略其他最大化奖励的可能。所以要修改算法，使得智能体能够探究每种策略背后最大化奖励的可能。
这时候的方法是采用随机性策略，随机策略中以高概率选择贪婪策略，低概率选择某个非贪婪策略，即不再始终采用贪婪策略。
该算法称为ϵ 贪婪策略。ϵ 的范围为 [0,1]
ε-greedy policy（ϵ- 贪婪策略），即在所有的状态下，用1-ε的概率来执行当前的最优动作a0，ε的概率来执行其他动作a1, a2。这样我们就可以获得所有动作的估计值，然后通过慢慢减少ε值，最终使算法收敛，并得到最优策略。

具体的流程

以下版本用的是every-visit,即个状态序列中每次出现的相同状态，都会计算对应的收获值。
友情参考：强化学习（四）用蒙特卡罗法（MC）求解
总结
蒙特卡罗法可以避免动态规划求解过于复杂，同时还可以不事先知道环境转化模型，因此可以用于海量数据和复杂模型。
但是它也有自己的缺点，这就是它每次采样都需要一个完整的状态序列。如果我们没有完整的状态序列，或者很难拿到较多的完整的状态序列。

Ending 吃饭啦！周末愉快！
友情链接：增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)

强化学习之蒙特卡罗法
滴！小李久违上线了~原来这周要写个年终总结的…上周比完赛丧到现在似乎情绪还是不好就拖到下周吧…补一个强化学习的知...
深度强化学习DQN实现细节，入门深度强化学习
本文主要讲解深度强化学习的开山之作，文献[1,2]. 本文主要由学习“深度之眼强化学习中Alex老师的课”...
强化学习笔记（1）--概述
目录：强化学习问题强化学习的组成智能体的组成强化学习分类强化学习一些重要概念 1. 强化学习问题面向智...
基础
什么是强化学习？强化学习是机器学习的一个分支。机器学习分为监督学习，无监督学习，强化学习。强化学习简单来说，...
统计学习方法——修炼学习笔记19：马尔可夫链蒙特卡罗法
蒙特卡罗法也称统计模拟方法，是通过从概率模型的随机抽样进行近似数值计算的方法。马尔可夫链蒙特卡罗法是以马尔可夫链为...
强化学习基础篇（三）动态规划之基础介绍
强化学习基础篇（三）动态规划之基础介绍强化学习从动物学习行为中的试错方式和优化控制理论两个领域独立发展，最终经贝...
强化学习基础知识详解
强化学习（Reinforcement Learning）强化学习基本概念强化学习四要素：状态(state)、动...
强化学习基础篇（一）强化学习入门
强化学习基础篇（一）强化学习入门本文主要基于David Silver的强化学习基础课程进行总结回归梳理强化学习的...
强化学习之Sarsa
在强化学习中，Sarsa和Q-Learning很类似，本次内容将会基于之前所讲的Q-Learning的内容。目录...
强化学习+关系抽取论文阅读
2019 层次强化学习做关系抽取 ---12018 强化学习做关系抽取 ---22018 深度强化学习做关系抽...

强化学习之蒙特卡罗法

蒙特卡罗

基本思想

区别比较

蒙特卡罗法→预测问题

蒙特卡罗法→控制问题（策略改进）

具体的流程

相关文章

强化学习之蒙特卡罗法

深度强化学习DQN实现细节，入门深度强化学习

强化学习笔记（1）--概述

基础

统计学习方法——修炼学习笔记19：马尔可夫链蒙特卡罗法

强化学习基础篇（三）动态规划之基础介绍

强化学习基础知识详解

强化学习基础篇（一）强化学习入门

强化学习之Sarsa

强化学习+关系抽取论文阅读

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读