1. 介绍

Policy gradient算法在增强学习中有非常多的应用，尤其是动作空间连续的情况。通常我们使用一个函数来表示策略 $\pi_{\theta} (a|s) = P[a|s;\theta]$ 。通常policy gradient会从随机策略中采样，然后优化策略来得到更高的reward。
这篇论文中，作者考虑的是deterministic policies $a = \mu_\theta (s)$ 。作者证明，deterministic policy是随机policy的极限，当policy variance趋于0的时候。
为了能够探索足够多的state和动作空间，随机policy是必须的。因此，为了使得deterministic policy gradient有令人满意的探索的效果，作者使用了off-policy learning 算法。简单地说，根据随机behavior policy来选择动作，但是学习deterministic target policy。作者使用deterministic policy gradient来学习一个actor-critic算法，用于估计action-value。

2. 算法背景

policy gradient算法的思路就是朝着performance gradient $\bigtriangledown_\theta J(\pi_\theta)$ 调整policy的参数。如下：

2

2.3 随机Actor-Critic 算法

Actor-critic算法包含一个actor，它根据上面的公式调整参数。但是它不知道 $Q^\pi$ 。因此，增加一个critic还学习 $Q$ ， $Q^w(s,a)$ 作为真实 $Q$ 的一个估计，它通常会使用一个policy evalution算法，例如TD learning。
通常情况下，使用critic会导致偏差（因为估计的值和真实值之间有误差），但是如果 1） $Q^w(s,a)=\bigtriangledown_\theta log \pi_\theta (a|s)^Tw$ ， 2） $w$ 最小化MSE：

MSE

2.4 Off-Policy Actor-critic

有时候我们需要计算的策略梯度并不对应采集的样本的策略 $\beta(a|s) \ne \pi_\theta(a|s)$ ，这就是off-policy。在这种问题中，performance object也就是 $J$ 通常需要修改

off-policy
对上式求导得到off-policy policy-gradient

4，5

3. Gradients of Deterministic Policies

3.1 Action-Value Gradients

大多数的model-free 增强学习算法基于policy iteration：交替地进行policy evaluation 和 policy improvement。Policy evaluation用于估计action-value函数： $Q^\pi(s,a)$ 或者 $Q^\mu (s,a)$ 。Policy improvement用于根据当前的action-value来更新策略，例如贪婪策略。
在动作空间连续的时候，就很难进行贪婪策略，因为得不到全局最大值。因此，一个简单，计算要求不高的代替是将策略向 $Q$ 的梯度移动。对于每一个状态 $s$ ，policy parameters $\theta^{k+1}$ 使用梯度 $\bigtriangledown_\theta Q^{\mu^k}(s, \mu_\theta(s))$ 进行更新。取平均得到下面公式：

6
使用chain rule，分解为下面公式：

7

3.2 Deterministic Policy Gradient Theorem

考虑一个deterministic policy $\mu_\theta:S \to A$ ，我们可以定义performance objective $J(\mu_\theta) = E[r_1^{\gamma} | \mu]$ ，probability distribution $p(s \to s' ,t,\mu)$ ,discounted state distribution $\rho^\mu(s)$ ，将performance objective写为：