美文网首页
强化学习:价值函数和策略

强化学习:价值函数和策略

作者: Rain师兄 | 来源:发表于2021-08-06 02:04 被阅读0次

代理如何决定做什么,他的决策过程是什么?

此外,在想要解决问题的意义上,代理可能想知道他的行为有多好并评估他在环境中的当前状况?

这正是下面的文章将要处理的。代理与环境之间的具体交互。代理如何评估他在环境中的临时情况以及他如何决定采取什么行动?

为此,强化学习中有两个概念,每个概念都回答了一个问题。价值函数涵盖了评估代理在环境中的当前情况的部分.

policy 来描述代理的决策过程。两者都将在下面解释......

Policy

策略 (π) 描述了代理的决策过程。在最简单的情况下,每个状态的策略是指代理在该状态下应该执行的操作。这种类型的策略称为确定性策略。每个状态都被分配一个动作,例如对于状态 s1:π(s1) = a1。确定性策略可以显示在表格中,其中可以选择不同状态的操作:


image.png 通常,策略为每个状态下的每个动作分配概率,例如 π(s1|a1) = 0.3。因此,该策略表示每个状态的所有可能动作的概率分布。这种策略称为随机策略。在随机策略中,可以选择多个动作,其中每个动作的概率为非零,所有动作的总和为 1。因此,可以说代理的行为可以用策略来描述,它将状态分配给动作的概率分布。该策略仅依赖于当前状态,而不依赖于时间或以前的状态。 image.png

Value Function(价值函数)

价值函数表示代理处于某种状态的价值。更具体地说,状态值函数描述了给定状态的收获( G_t)的期望。通常,状态值函数是针对特定策略定义的,因为预期回报取决于策略:


image.png 指数 π 表示对策略的依赖。此外,可以定义动作价值函数。如果代理根据策略 π 选择动作 a,则状态的动作值是预期回报。 image.png

价值函数对于强化学习至关重要。它们允许代理查询其当前情况的质量,而不是等待长期结果。这有双重好处。首先,回报不是立即可用的,其次,由于policy的随机性以及环境的动态性,回报可能是随机的。价值函数通过平均回报来总结所有未来的可能性。因此,价值函数允许评估不同policy的质量。

整个 RL 中使用的值函数的一个基本属性是它们满足递归关系。对于每个策略和状态 s,以下一致性条件适用于 s 的值与其可能的后续状态的值之间:


image.png

该方程也称为贝尔曼方程。对于值函数,贝尔曼方程定义了状态 s 的值与其后续状态 s' 的关系。 Bellman 方程也用于 Action-Value 函数。因此,可以从以下状态计算 Action-Value:


image.png

在贝尔曼方程中,MDP 公式的结构用把这个无限大的和简化到线性方程组的程度。通过直接求解方程,然后可以确定准确的状态值.

相关文章

网友评论

      本文标题:强化学习:价值函数和策略

      本文链接:https://www.haomeiwen.com/subject/uzxbvltx.html