美文网首页
Deterministic Policy Gradient Al

Deterministic Policy Gradient Al

作者: Junr_0926 | 来源:发表于2018-12-10 08:55 被阅读0次

1. 介绍

Policy gradient算法在增强学习中有非常多的应用,尤其是动作空间连续的情况。通常我们使用一个函数来表示策略\pi_{\theta} (a|s) = P[a|s;\theta]。通常policy gradient会从随机策略中采样,然后优化策略来得到更高的reward。
这篇论文中,作者考虑的是deterministic policiesa = \mu_\theta (s)。作者证明,deterministic policy是随机policy的极限,当policy variance趋于0的时候。
为了能够探索足够多的state和动作空间,随机policy是必须的。因此,为了使得deterministic policy gradient有令人满意的探索的效果,作者使用了off-policy learning 算法。简单地说,根据随机behavior policy来选择动作,但是学习deterministic target policy。作者使用deterministic policy gradient来学习一个actor-critic算法,用于估计action-value。

2. 算法背景

policy gradient算法的思路就是朝着performance gradient \bigtriangledown_\theta J(\pi_\theta) 调整policy的参数。如下:

2

2.3 随机Actor-Critic 算法

Actor-critic算法包含一个actor,它根据上面的公式调整参数。但是它不知道Q^\pi。因此,增加一个critic还学习QQ^w(s,a)作为真实Q的一个估计,它通常会使用一个policy evalution算法,例如TD learning。
通常情况下,使用critic会导致偏差(因为估计的值和真实值之间有误差),但是如果 1)Q^w(s,a)=\bigtriangledown_\theta log \pi_\theta (a|s)^Tw, 2)w最小化MSE:

MSE

2.4 Off-Policy Actor-critic

有时候我们需要计算的策略梯度并不对应采集的样本的策略 \beta(a|s) \ne \pi_\theta(a|s),这就是off-policy。在这种问题中,performance object也就是J通常需要修改

off-policy
对上式求导得到off-policy policy-gradient
4,5

3. Gradients of Deterministic Policies

3.1 Action-Value Gradients

大多数的model-free 增强学习算法基于policy iteration:交替地进行policy evaluation 和 policy improvement。Policy evaluation用于估计action-value函数:Q^\pi(s,a) 或者 Q^\mu (s,a)。Policy improvement用于根据当前的action-value来更新策略,例如贪婪策略。
在动作空间连续的时候,就很难进行贪婪策略,因为得不到全局最大值。因此,一个简单,计算要求不高的代替是将策略向Q的梯度移动。对于每一个状态s,policy parameters \theta^{k+1}使用梯度\bigtriangledown_\theta Q^{\mu^k}(s, \mu_\theta(s))进行更新。取平均得到下面公式:

6
使用chain rule,分解为下面公式:
7

3.2 Deterministic Policy Gradient Theorem

考虑一个deterministic policy \mu_\theta:S \to A,我们可以定义performance objective J(\mu_\theta) = E[r_1^{\gamma} | \mu],probability distribution p(s \to s' ,t,\mu),discounted state distribution \rho^\mu(s),将performance objective写为:

8

Theorem 1(Deterministic Policy Gradient Theorem)


9

3.3 Limit of the Stochastic Policy Gradient

在这一部分作者证明来deterministic policy gradient 是stochastic policy gradient的极限情况。

4. Deterministic Actor-Critic Algorithms

有了deterministic policy gradient theorem,接下来推导on-policy off-policy actor-critic algorithms。

4.1 On-Policy Deterministic Actor-Critic

On-Policy

4.2 Off-Policy Deterministic Actor-Critic

Performance objective of target policy, averaged over the state distribution of the behavior policy


14

求导


15 off-policy

4.3 Compatible Function Approximation

COPDAC-GQ

相关文章

网友评论

      本文标题:Deterministic Policy Gradient Al

      本文链接:https://www.haomeiwen.com/subject/ziachqtx.html