AI学习笔记——强化学习之值函数近似(Value Functio

作者: Hongtao洪滔 | 来源:发表于2018-12-07 05:57 被阅读6次

AI学习笔记——强化学习之值函数近似(Value Functio
AI学习笔记——强化学习之值函数近似(Value Functio
AI学习笔记——强化学习之值函数近似(Value Functio
强化学习基础篇（二十八）值函数近似法（Value Functio
强化学习中的值函数近似算法
AI学习笔记——基于策略的强化学习
swift学习笔记②
强化学习基础篇（二十九）策略梯度(一)
Pytorch学习之多维线性回归
AI学习笔记之——强化学习(Reinforcement Lear

前文介绍了函数近似来预测V函数，但是还没涉及到行动和控制，这篇文章就来谈谈用近似Q函数来控制和行动。

1. 控制——递增算法 Incremental Control Algorithms

回顾前文动态规划(DP)解决MDP我们用迭代+Greedy的方法寻找最优策略

同样的，在使用近似函数之后，也可以使用类似的方法

分为两个步骤

第一步，进行策略评估，当然这里是用近似函数，将w带入
第二步，策略改善，及用Ɛ-greedy的方法行动并调整参数w，如何行动就要涉及到Q函数了，这个会在后文介绍。

与DP不同的地方是，由于是采用近似函数，所以一开始并不能达到最优q函数q，只能在不断迭代qw之后最终接近q

2.行为价值函数(Q函数)的近似函数

与V函数一样，Q函数也可以有近似函数的表达方式

最小化均方差(损失函数)：

用梯度下降法寻找局部最优解，需要修正的权重∆w：

同样的可以用特征向量的线性函数(线性组合)来作为Q函数的近似函数：

此时，与V函数一样

对于MC
对于TD(0)
对于TD(λ)
前向认识：

后向认识：

3. 收敛性

预测学习
近似函数来寻找最优策略有明显的优势，但是相比于传统的(查表)方法是否是一直能收敛的呢，答案是：不一定，下表总结了如下：

可以发现MC方法无论在On-Policy 还是Off-Policy的学习中都能收敛，TD在On-Policy的学习中使用非线性近似函数的时候是不收敛的，在Off-Policy的学习中，无论是线性还是非线性的近似函数中，都不能收敛。

TD算法在更新参数时不遵循任何目标函数的梯度是导致它在离线策略或使用非线性近似函数可能会发散的原因，我们可以通过修改TD算法使得它遵循Projected Bellman Error的梯度进而收敛，这就是Gradient TD 的算法，但是课程中并没详细讲解该算法的原理。

控制学习
在控制学习的算法中，收敛性如图所示：

(√) 表示在最优价值函数附近震荡
由此可见，非线性的近似函数用于控制算法都是无法收敛的。也就是说如果用神经网络来训练，无论是MC Control，Sarsa还是Q-Learning 都是无法收敛的。如何解决这个问题，我们就需要用到前面文中提到的DQN(Deep Q-Learning)的方法了。

之前的那篇文章是从应用的角度介绍了DQN，下一篇文章将会从理论的角度介绍批方法(Batch Methods)以及利用批方法实现DQN解决非线性近似函数对控制学习无法收敛的问题。

文章首发steemit.com 为了方便墙内阅读，搬运至此，欢迎留言或者访问我的Steemit主页

AI学习笔记——强化学习之值函数近似(Value Functio
在前面的文章介绍了什么是MDP，以及如何求解最优MDP解决MDP问题。接着又介绍了用MD和TD的方法在未知环境下预...
AI学习笔记——强化学习之值函数近似(Value Functio
前面两篇文章介绍了如何使用近似函数，而不是“查表”的方法找到最优策略，但是遇到了一个问题，就是在使用非线性近似函数...
AI学习笔记——强化学习之值函数近似(Value Functio
前文介绍了函数近似来预测V函数，但是还没涉及到行动和控制，这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制—...
强化学习基础篇（二十八）值函数近似法（Value Functio
强化学习基础篇（二十八）值函数近似法（Value Function Approximation）在大规模的强化学...
强化学习中的值函数近似算法
在开始说值函数近似方法之前，我们先回顾一下强化学习算法。强化学习算法主要有两大类Model-based 的方法...
AI学习笔记——基于策略的强化学习
1. 基于价值的强化学习回顾前几篇文章都是在讲通过训练值函数的近似函数，然后通过比如Ɛ-greedy探索方法获得...
swift学习笔记②
Swift学习笔记 - 文集语法篇一、函数函数定义 Swift 定义函数使用关键字 func，functio...
强化学习基础篇（二十九）策略梯度(一)
强化学习基础篇（二十九）策略梯度(一) 之前我们一直都是对价值函数或者动作值函数进行参数化近似：其中策略是间接得通...
Pytorch学习之多维线性回归
Pytorch学习之多维线性回归达达声明库函数定义多项式特征定义真实函数函数近似值获取获得batch ...
AI学习笔记之——强化学习(Reinforcement Lear
诚如在之前文章提到的，机器学习按照从那里学的角度可以分为：监督学习，无监督学习和强化学习三大类。之前的文章大多数都...

AI学习笔记——强化学习之值函数近似(Value Functio

1. 控制——递增算法 Incremental Control Algorithms

2.行为价值函数(Q函数)的近似函数

3. 收敛性

相关文章