1.Overview
在本教程中,我们将研究强化学习策略的概念。
在本文的结尾,我们将熟悉强化学习的基本概念及其基于策略的方法。
2. The Definition of a Policy
强化学习是机器学习的一个分支,致力于训练智能体在环境中运行,以便在追求某些目标时最大限度地发挥其效用。
Russel 表示,其基本思想,智能是agent与其环境之间相互作用的新兴属性。
此属性通过在执行某些任务时引导agent的选择来指导agent的操作。
类似地,我们可以说,智能是agent选择与其目标相关的适当策略的能力。
策略or战略(strategy),是目的导向的所有可能行为的子集,它与policy这个概念有关
因此,policy是agent在追求目标时使用的策略(strategy).
policy根据agent的状态和环境决定agent采取的行动。
3. Mathematical Definition of a Policy
用正式的术语,我们根据它所指的马尔可夫决策过程来定义策略 pi。马尔可夫决策过程是一个形式为 (S, A, P, R) 的元组,其结构如下。
第一个元素是包含代理(agent)内部状态的集合 S。总之,所有可能的状态组成了代理的所谓的状态空间。在用于模拟网格世界的情况下,S 通常由代理在棋盘上的位置以及必要时的一些参数组成。
第二个元素是包含代理动作的集合 A。动作对应于代理可以采取的与环境相关的可能行为。总之,所有动作的集合组成该代理的动作空间。
一个动作也可以导致代理状态的改变。这由包含从一种状态转换到另一种状态的概率的矩阵 P 表示。它的元素 P_a(s,s') 包含所有可能的动作 a in A 和状态对 (s, s') 的概率 Pr(s' | s, a)。
第四个元素 R(s) 包括代理的奖励函数。它将代理的状态作为输入,并输出与代理的奖励相对应的实数。
我们现在可以正式定义策略,我们用 pi(s) 表示。策略 pi(s) 由 代理在每个可能的状态应该采取的合适的行为组成。
总结
不严谨的说一下。
![](https://img.haomeiwen.com/i4513441/02d0088bf0164a1c.png)
其实策略就是图中所说。
策略就是
![](https://img.haomeiwen.com/i4513441/13e2f2fccf6e281b.png)
网友评论