强化学习导论——n-step Bootstrapping

作者: 初七123 | 来源:发表于2018-09-27 15:11 被阅读94次

强化学习导论——n-step Bootstrapping
Chapter 7
强化学习基础篇（二十六）TD-lambda预测
强化学习中的无模型控制
强化学习导论——Eligibility Traces
强化学习导论——Dynamic Programming
强化学习导论（Reinforcement Learning：An
Essential Netty in Action学习(三)
深度学习应用开发TensorFlow实践第一讲笔记
强化学习导论——Monte Carlo Methods

从 TD(0) 到蒙特卡洛方法示意图

n-step的算法可以描述为

下面是 n-step TD 的 error reduction property

效果测试，可以看出n-step在这个例子中比蒙特卡洛和TD(0)都要好

对于策略学习问题，我们先看一下backup图

n-step Sarsa 算法描述

效果评测

如果考虑异策略的学习方式，off-policy n-step Sarsa 伪代码如下：

因为重要性采样比例中如果某一项为0会导致很大的方差，所以可以考虑下面的方式定义G

介绍一下n-step Tree Backup，它的特点是将未被执行的节点考虑进去

即G的定义为

算法的伪代码为

强化学习导论——n-step Bootstrapping
从 TD(0) 到蒙特卡洛方法示意图 n-step的算法可以描述为下面是 n-step TD 的 error r...
Chapter 7
Chapter 7: n-step Bootstrapping n-step TD methods span a ...
强化学习基础篇（二十六）TD-lambda预测
强化学习基础篇（二十六）预测 1、平均n-Step回报从在上一篇中我们考虑了n-Step回报，在每个n的选择都有...
强化学习中的无模型控制
在上一篇文章强化学习中的无模型预测中，有说过这个无模型强化学习的预测问题，通过TD、n-step TD或者MC...
强化学习导论——Eligibility Traces
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中，k涉及到资格迹的使用。几乎所有的时间差分算法如Q-...
强化学习导论——Dynamic Programming
这里的DP是强化学习中用于求解MDP问题的一种方法，本章用DP找到满足最优贝尔曼方程的策略首先我们考虑如何评估状...
强化学习导论（Reinforcement Learning：An
https://blog.csdn.net/Tryantking/article/details/79953734
Essential Netty in Action学习(三)
bootstrapping 这次再讲bootstrapping.bootstrapping是连接客户端或者服务器绑...
深度学习应用开发TensorFlow实践第一讲笔记
人工智能导论技术：蒙特卡洛树+深度学习+强化学习 AlphaGo 采用深度卷积神经网络训练策略网络和价值网络以减...
强化学习导论——Monte Carlo Methods
在本章中，我们将考虑我们用于估计价值函数和发现最优政策的第一种学习方法。与前一章不同，这里我们不假设完整的环境知...