DQN

作者: 孑立的老章鱼 | 来源:发表于2020-03-16 21:29 被阅读0次

Keras深度强化学习--Dueling DQN实现
用 Keras 搭建 Double DQN 模型
DQN
DQN
Double DQN——解决DQN中的过估计问题
Double DQN
深度强化学习之DQN-深度学习与强化学习的成功结合
Prioritized DQN
DQN算法
系列论文阅读——DQN及其改进

Q-learning

q-learning是一种时间差分控制算法，其基础是时间差分预测： $V(s)=V(s)+\alpha(r+\gamma V(s\prime)-V(s))$
上一个状态的值=先前状态的值+学习率（奖励+折扣因数（当前状态的值）-先前状态的值）
直观理解就是实际奖励 $r+\gamma V(s\prime)$ 和期望奖励 $V(s)$ 之差乘以学习率 $\alpha$ 。试图最小化这个误差。
Q函数也叫状态-行为值函数，用于确定状态s下一个行为a的好坏程度。根据以下方程更新Q值： $Q(s,a)=Q(s,a)+\alpha(r+\gamma maxQ(s\prime a)-Q(s,a))$

$\gamma$ 是对未来奖励的衰减率，越大对未来越重视，为0时只考虑眼前的值。
为什么是maxQ而不是minQ呢？想象一个极端情况，五子棋，最后一步，下在X位置赢，100分；其他位置输，0分。那怎么衡量倒数第二步的价值呢？当然是由最后一步的最大价值决定，不能因为最后一步走错了，就否定前面动作的价值。

image.png

以冰冻湖为例。设当前处于状态（3,2），并具有向左和向右两种行为。（图5.5）
使用 $\epsilon$ 贪婪策略探索出一种新的行为（向下），选择该行为。（图5.6）

IMG_0172(20200316-210408).JPG
这时在（3,2）执行向下行为，到达新状态（4,2）。那么如何更新上一状态（3,2）的值呢？观测Q表（图5.7）

image.png

设 $\alpha$ 为0.1， $\gamma$ 为1，根据 $Q(s,a)=Q(s,a)+\alpha(r+\gamma maxQ(s\prime a)-Q(s,a))$
则： $Q((3,2),向下)=Q((3,2),向下)+0.1(0.3+1*maxQ((4,2),行为)-Q((3,2),向下))$
$Q((3,2),向下)=0.8+0.1(0.3+1*max[0.3,0.5,0.8]-0.8)=0.83$
此时，Q(3,2)，向下的值更新为0.83。
现在处于（4,2），需要执行一种行为。设选择概率 $1-\epsilon$ 选择最佳行为，在状态（4,2）下向右具有最大值，故选择向右。（图5.8）

image.png

执行后处于（4,3），然后更新（4,2）的值：
$Q((4,2),向右)=Q((4,2),向右)+0.1(0.3+1*maxQ((4,3),行为)-Q((4,2),向右))$
$Q((4,2),向右)=0.8+0.1(0.3+1*max[0.1,0.3]-0.8)=0.78$

image.png
q_learning实践可参考这个网站：TensorFlow 2.0 (七) - 强化学习 Q-Learning 玩转 OpenAI gym

DQN

在q-learning中，需要将每个状态下所有可能行为的值都保存在Q表中，并选取在状态下具有最大值的行为作为最佳行为。如果具有许多状态且每个状态下具有多种行为，那么便利每个状态下的所有行为要耗费大量时间。一种更好的方法是利用某一参数 $\theta$ 来近似Q函数，即 $Q(s,a;\theta)\approx Q(s,a)$ 。
可以利用一个权重为 $\theta$ 的神经网络来近似每个状态下所有可能行为的Q值。这就是DQN。
在q-learning中： $Q(s,a)=Q(s,a)+\alpha(r+\gamma maxQ(s\prime a)-Q(s,a))$
式中 $r+\gamma maxQ(s\prime,a)$ 是目标值， $Q(s,a)$ 是预测值，目的是通过学习一种正确的策略来使得 $Q(s,a)$ 最小化。
同理，在DQN中，定义损失函数为目标值与预测值的均方差，同时通过更新权重 $\theta$ 来最小化损失： $loss=(y_i-Q(s,a;\theta))^2$
式中 $y_i=r+\gamma max_{a\prime} Q(s\prime,a;\theta)$ 。
通过梯度下降来更新权重并最小化损失。

image.png
实践参考这个网站：TensorFlow 2.0 (八) - 强化学习 DQN 玩转 gym Mountain Car

image.png

Keras深度强化学习--Dueling DQN实现
从DQN到Nature DQN再到Double DQN，这些Deep Q-learning算法的改进点在于TD-e...
用 Keras 搭建 Double DQN 模型
上一篇文章介绍了 DQN 以及如何用 Keras 一步一步搭建 DQN 模型，这篇文章我们来介绍一下 DQN 的改...
DQN
Q-learning q-learning是一种时间差分控制算法，其基础是时间差分预测：上一个状态的值=先前状态的...
DQN
简介 Q learning和SARSA[https://www.jianshu.com/p/6cbe3d6c3e3...
Double DQN——解决DQN中的过估计问题
1.前言本篇教程是基于Deep Q network(DQN)的教程，缩减了在DQN方面的介绍，着重强调Doubl...
Double DQN
简介 Double DQN的出现，是为了解决DQN和Q-Learning等学习算法中的过高估计。论文参考这里代...
深度强化学习之DQN-深度学习与强化学习的成功结合
目录概念深度学习与强化学习结合的问题 DQN解决结合出现问题的办法 DQN算法流程总结一、概念原因：在普...
Prioritized DQN
1.简介 Prioritized DQN 是为了解决当在memory中均匀采样时候学习效率低下的问题。原因主要有两...
DQN算法
强化学习概要定义 1、环境指的是智能体执行动作时所处的场景，而智能体则表示强化学习算法。环境首先向智能体发送一个...
系列论文阅读——DQN及其改进
DQN 作为DRL的开山之作，DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。...