浅谈TD3：从算法原理到代码实现

作者: 行者AI | 来源:发表于2021-03-17 10:50 被阅读0次

浅谈TD3：从算法原理到代码实现
SMO算法实现
［转］PCA
6- OpenCV+TensorFlow 入门人工智能图像处理-
CRC算法，从原理到实现
决策树
SVM从原理到代码实现1
选择排序(oc/java/Python/scala)
Github 标星 4w+，如何用 Python 实现所有算法！
浅谈算法和数据结构

本文首发于：行者AI

众所周知，在基于价值学习的强化学习算法中，如DQN，函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在，并提出了新的机制去最小化它对演员（策略函数）和评论家（估值函数）的影响。我们的算法建立在双Q学习的基础上，通过选取两个估值函数中的较小值，从而限制它对Q值的过高估计。（出自TD3论文摘要）

1. 什么是TD3

TD3是Twin Delayed Deep Deterministic policy gradient algorithm的全称。TD3全称中Deep Deterministic policy gradient algorithm就是DDPG的全称。那么DDPG和TD3有何渊源呢？其实简单的说，TD3是DDPG的一个优化版本。

1.1 TD3为什么被提出

在强化学习中，对于离散化的动作的学习，都是以DQN为基础的，DQN则是通过的 $argMaxQ_{table}$ 的方式去选择动作，往往都会过大的估计价值函数，从而造成误差。在连续的动作控制的AC框架中，如果每一步都采用这种方式去估计，导致误差一步一步的累加，导致不能找到最优策略，最终使算法不能得到收敛。

1.2 TD3在DDPG的基础上都做了些什么

使用两个Critic网络。使用两个网络对动作价值函数进行估计，（这Double DQN 的思想差不多）。在训练的时候选择 $min(Q^{\theta1}(s,a),Q^{\theta2}(s,a))$ 作为估计值。
使用软更新的方式。不再采用直接复制，而是使用 $\theta = \tau\theta^′ + (1 - \tau)\theta$ 的方式更新网络参数。
使用策略噪音。使用Epsilon-Greedy在探索的时候使用了探索噪音。（还是用了策略噪声，在更新参数的时候，用于平滑策略期望）
使用延迟学习。Critic网络更新的频率要比Actor网络更新的频率要大。
使用梯度截取。将Actor的参数更新的梯度截取到某个范围内。

2. TD3算法思路

TD3算法的大致思路，首先初始化3个网络，分别为 $Q_{\theta1},Q_{\theta2},\pi_\phi$ ，参数为 $\theta_1,\theta_2,\phi$ ，在初始化3个Target网络，分别将开始初始化的3个网络参数分别对应的复制给target网络。 $\theta{_1^′}\leftarrow\theta_1,\theta{_2^′}\leftarrow\theta_2,\phi_′\leftarrow\phi$ 。初始化Replay Buffer $\beta$ 。然后通过循环迭代，一次次找到最优策略。每次迭代，在选择action的值的时候加入了噪音，使 $a~\pi_\phi(s) + \epsilon$ ， $\epsilon \sim N(0,\sigma)$ ，然后将 $(s,a,r,s^′)$ 放入 $\beta$ ，当 $\beta$ 达到一定的值时候。然后随机从 $\beta$ 中Sample出Mini-Batch个数据，通过 $\tilde{a} \sim\pi_{\phi^′}(s^′) + \epsilon$ ， $\epsilon \sim clip(N(0,\tilde\sigma),-c,c)$ ，计算出 $s^′$ 状态下对应的Action的值 $\tilde a$ ，通过 $s^′,\tilde a$ ，计算出 $targetQ1,targetQ2$ ，获取 $min(targetQ1,targetQ)$ ，为 $s^′$ 的 $targetQ$ 值。

通过贝尔曼方程计算 $s$ 的 $targetQ$ 值，通过两个Current网络根据 $s,a$ 分别计算出当前的 $Q$ 值，在将两个当前网络的 $Q$ 值和 $targetQ$ 值通过MSE计算Loss，更新参数。Critic网络更新之后，Actor网络则采用了延时更新，（一般采用Critic更新2次，Actor更新1次）。通过梯度上升的方式更新Actor网络。通过软更新的方式，更新target网络。

为什么在更新Critic网络时，在计算Action值的时候加入噪音，是为了平滑前面加入的噪音。
贝尔曼方程：针对一个连续的MRP（Markov Reward Process）的过程（连续的状态奖励过程），状态 $s$ 转移到下一个状态 $s^′$ 的概率的固定的，与前面的几轮状态无关。其中， $v$ 表示一个对当前状态state 进行估值的函数。 $\gamma$ 一般为趋近于1，但是小于1。

3. 代码实现

代码主要是根据DDPG的代码以及TD3的论文复现的，使用的是Pytorch1.7实现的。

3.1 搭建网络结构

Q1网络结构主要是用于更新Actor网络

class Actor(nn.Module):
    def __init__(self, state_dim, action_dim, max_action):
        super(Actor, self).__init__()
        self.f1 = nn.Linear(state_dim, 256)
        self.f2 = nn.Linear(256, 128)
        self.f3 = nn.Linear(128, action_dim)
        self.max_action = max_action
    def forward(self,x):
        x = self.f1(x)
        x = F.relu(x)
        x = self.f2(x)
        x = F.relu(x)
        x = self.f3(x)
        return torch.tanh(x) * self.max_action
class Critic(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(Critic,self).__init__()
        self.f11 = nn.Linear(state_dim+action_dim, 256)
        self.f12 = nn.Linear(256, 128)
        self.f13 = nn.Linear(128, 1)

        self.f21 = nn.Linear(state_dim + action_dim, 256)
        self.f22 = nn.Linear(256, 128)
        self.f23 = nn.Linear(128, 1)

    def forward(self, state, action):
        sa = torch.cat([state, action], 1)

        x = self.f11(sa)
        x = F.relu(x)
        x = self.f12(x)
        x = F.relu(x)
        Q1 = self.f13(x)

        x = self.f21(sa)
        x = F.relu(x)
        x = self.f22(x)
        x = F.relu(x)
        Q2 = self.f23(x)

        return Q1, Q2

3.2 定义网络

 self.actor = Actor(self.state_dim, self.action_dim, self.max_action)
        self.target_actor = copy.deepcopy(self.actor)
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=3e-4)

        #定义critic网络
        self.critic = Critic(self.state_dim, self.action_dim)
        self.target_critic = copy.deepcopy(self.critic)
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=3e-4)

3.3 更新网络

更新网络采用软更新，延迟更新等方式

 def learn(self):
        self.total_it += 1
        data = self.buffer.smaple(size=128)
        state, action, done, state_next, reward = data
        with torch.no_grad:
            noise = (torch.rand_like(action) * self.policy_noise).clamp(-self.noise_clip, self.noise_clip)
            next_action = (self.target_actor(state_next) + noise).clamp(-self.max_action, self.max_action)
            target_Q1,target_Q2 = self.target_critic(state_next, next_action)
            target_Q = torch.min(target_Q1, target_Q2)
            target_Q = reward + done * self.discount * target_Q
        current_Q1, current_Q2 = self.critic(state, action)
        critic_loss = F.mse_loss(current_Q1, target_Q) + F.mse_loss(current_Q2, target_Q)
        critic_loss.backward()
        self.critic_optimizer.step()

        if self.total_it % self.policy_freq == 0:

            q1,q2 = self.critic(state, self.actor(state))
            actor_loss = -torch.min(q1, q2).mean()

            self.actor_optimizer.zero_grad()
            actor_loss.backward()
            self.actor_optimizer.step()
            for param, target_param in zip(self.critic.parameters(), self.target_critic.parameters()):
                target_param.data.copy_(self.tau * param.data + (1 - self.tau) * target_param.data)

            for param, target_param in zip(self.actor.parameters(), self.target_actor.parameters()):
                target_param.data.copy_(self.tau * param.data + (1 - self.tau) * target_param.data)

4. 总结

TD3是DDPG的一个升级版，在解决很多的问题上，效果要比DDPG的效果好的多，无论是训练速度，还是结果都有显著的提高。

5. 资料

http://proceedings.mlr.press/v80/fujimoto18a/fujimoto18a.pdf

浅谈TD3：从算法原理到代码实现
本文首发于：行者AI[https://xingzheai.cn/details/eb24a081b33] 众所周知...
SMO算法实现
这里根据SMO算法原论文中的伪代码实现了SMO算法。算法和数据已经上传到了git。伪代码 python实现分类...
［转］PCA
主成分分析PCA：这一篇给出了一个可视的样例 PCA方法从原理到实现 PCA算法实现：纯代码，我没有测试过
6- OpenCV+TensorFlow 入门人工智能图像处理-
图片移位 opencvAPI实现算法原理源代码实现原始图片和移位后图片图片位移的算法原理分析api实现原...
CRC算法，从原理到实现
CRC，一种基于有限域GF(2)的多项式环的Hash算法。在GF(2)中，多项式系数只有0、1，加减运算等同于异或...
决策树
可参考：1、【机器学习】决策树（上）——从原理到算法实现https://blog.csdn.net/HerosOf...
SVM从原理到代码实现1
1. SVM历史背景和趣闻 SVM（Support Vector Machine），支持向量机，是一种经典的用于分...
选择排序(oc/java/Python/scala)
一、浅谈数组和链表二、选择排序介绍：方案一： scala实现代码： Java实现代码： OC实现代码：主文...
Github 标星 4w+，如何用 Python 实现所有算法！
几位印度小哥在 GitHub 上建了一个各种 Python 算法的新手入门大全。从原理到代码，全都给你交代清楚了...
浅谈算法和数据结构
注：采转归档，自己学习查询使用浅谈算法和数据结构: 一栈和队列浅谈算法和数据结构: 二基本排序算法浅谈算法和...

浅谈TD3：从算法原理到代码实现

1. 什么是TD3

1.1 TD3为什么被提出

1.2 TD3在DDPG的基础上都做了些什么

2. TD3算法思路

3. 代码实现

3.1 搭建网络结构

3.2 定义网络

3.3 更新网络

4. 总结

5. 资料

相关文章

浅谈TD3：从算法原理到代码实现

SMO算法实现

［转］PCA

6- OpenCV+TensorFlow 入门人工智能图像处理-

CRC算法，从原理到实现

决策树

SVM从原理到代码实现1

选择排序(oc/java/Python/scala)

Github 标星 4w+，如何用 Python 实现所有算法！

浅谈算法和数据结构

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读