强化学习导论——On-policy Prediction wit

强化学习导论——On-policy Prediction wit

作者: 初七123 | 来源:发表于2018-10-13 18:27 被阅读78次

强化学习导论——On-policy Prediction wit
Chapter 9
强化学习导论——On-policy Control with A
#David Silver Reinforcement Lear
强化学习基础篇（十六）首次访问蒙特卡洛预测算法在21点游戏的应用
PPO
强化学习导论——Eligibility Traces
强化学习导论——Dynamic Programming
强化学习导论（Reinforcement Learning：An
[强化学习] 理解on-policy 和 off-policy

这一章讨论on-policy下的价值函数近似

均方价值误差

u(s)是状态的分布函数，定义如下

如何使误差变小？梯度下降

如果我们不知道Gt，所以就有Semi-gradient TD(0)，可以看出这是个自举的算法

对于线性模型

可以得到 Linear TD(0)的收敛点

同时可以证明在收敛点其误差满足

效果测试

同理可以扩展为n-step

线性模型可以通过多种方法构造复杂特征

第一种是基于多项式

第二种是基于傅里叶变换的，傅里叶变换把函数分解为多个不同频率的sin、cos函数，这里可以把特征向量分解为多个不同频率的cos函数

其中cⁱ向量的含义如下，0表示在该维度特征为常量

同时每个特征x的学习速率计算方法如下

效果测试

第三种方式是稀疏编码，考虑一个连续二维空间、线性函数
d在哪个圈里面代表该圈对应的w为1

圈越大泛化能力越强，同理圈的形状也会影响泛化

Tile Coding 是一种多维度的稀疏编码方式
编码方式如图所示

Tile Coding的测试

因为是二进制编码的，这种方法的计算效率很高
offset的选取方式会对泛化效果产生影响

同时形状也不是确定的，会对泛化能力造成影响

RBF也是一种特征处理方法
用径向基函数映射特征到高维空间

下面讨论非线性的函数近似

人工神经网络

深度卷积神经网络

训练深层神经网络常用的算法是反向传播算法

Least-Squares TD

在线性TD(0)中，收敛点为

我们可以不通过迭代来求出收敛参数，因此不用浪费训练样本

但是计算的复杂度很高，可以通过一些公式来优化

Memory-based Function Approximation

基于记忆的函数近似在内存中保存一部分样本，然后预测的时候直接查找距离最近的样本，类似于KNN

Kernel-based Function Approximation

k(s, s') is the weight given to data about s′ in its influence on answering queries about s.

第一种核回归类似于Memory-based Function Approximation

其中的核函数可以使用RBF

也可以用特征向量的内积

如果考虑对状态的兴趣，可以得到一个n-step的更新方法

相关文章

强化学习导论——On-policy Prediction wit
这一章讨论on-policy下的价值函数近似均方价值误差 u(s)是状态的分布函数，定义如下如何使误差变小？梯...
Chapter 9
Chapter 9: On-policy Prediction with Approximation From t...
强化学习导论——On-policy Control with A
On-Policy Prediction 中的方法很容易扩展到控制学习问题中完整的伪代码同理有n-step的S...
#David Silver Reinforcement Lear
这节主要讲了动态规划在强化学习中的用法。引入两个问题的定义，Prediction，Control。Predict...
强化学习基础篇（十六）首次访问蒙特卡洛预测算法在21点游戏的应用
强化学习基础篇（十六）蒙特卡洛预测算法在21点游戏的应用本节将介绍Monte Carlo prediction算...
PPO
On-policy VS Off-policy On-policy: The agent learned and ...
强化学习导论——Eligibility Traces
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中，k涉及到资格迹的使用。几乎所有的时间差分算法如Q-...
强化学习导论——Dynamic Programming
这里的DP是强化学习中用于求解MDP问题的一种方法，本章用DP找到满足最优贝尔曼方程的策略首先我们考虑如何评估状...
强化学习导论（Reinforcement Learning：An
https://blog.csdn.net/Tryantking/article/details/79953734
[强化学习] 理解on-policy 和 off-policy
我们把用来指导个体产生与环境进行实际交互行为的策略称为行为策略，把用来评价状态或行为价值的策略或者待优化的策略称为...

网友评论

本文标题：强化学习导论——On-policy Prediction wit

本文链接：https://www.haomeiwen.com/subject/hvclnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|强化学习导论——On-policy Prediction wit|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！