Lecture 6 Value Function Approxi

Lecture 6 Value Function Approxi

作者: BoringFantasy | 来源:发表于2019-10-21 14:51 被阅读0次

Lecture 6 Value Function Approxi
Lecture 6: Value Function Approx
Lecture 6: Value Function Approx
Marketing
Your First Python Program
文本框输入数字和小数点整数和浮点数 JS判断
js 保留两位小数
2018-02-25 vue filter的运用截取字符串
学习
01.MySQL PHP语法

Value Function Approximation

image.png

如何将强化学习应用到大的数据集

希望使用value function进行归纳法，因为表格记录函数值收到状态数量限制。
学习这种总结归纳法，使用有效方法估计函数值。

image.png
建立新的函数逼近value function，包含自己设定的权重w，同时可以估计所有位置的状态。
采用MC或者TD方法，更新逼近函数。

image.png
类似一个黑盒子，输入s和a，调整w，训练逼近函数，类似于神经网络。

image.png
内部是什么样的呢，索性用机器学习思想设计逼近函数。

image.png
逼近函数需要知道梯度来进行更新。
独立同分布训练数据在这里并不适用。

image.png

Incremental Methods

image.png

从梯度下降开始，下图介绍梯度下降法。

image.png
使用梯度下降法逼近value function。
假设这是一个监督学习，我们能够得到真实的value function $v_\pi(S)$ ，则可以通过减小误差的方法进行梯度下降，从而更新参数。
image.png
假设我们有一个特质向量，每一个维度表示某一特征表示。

image.png
使用神经网络的黑盒子模型进行非线性逼近来估计value function。
线性value function逼近，即假设value function和特征向量是线性关系。
同样的，使用梯度下降的方式更新参数w。（这页ppt最后一行）

image.png
上节课讲的表格查找法其实是线性value function逼近的一种特殊形式。也是状态矩阵乘权重向量，得到Q-table

image.png

实际怎么做的

实际上我们没有监督者告诉我们实际 $v_\pi(S,A)$ ，所以我们用MC或者TD方法估计实际的value function，同样的使用梯度下降方式进行参数更新。
image.png
用MC方法进行value function 逼近。

image.png
同样的，使用TD方法进行vlaue function逼近。 $\delta$ 是TD error。
为什么只做目标函数的梯度，因为实际上没有做真的TD运算，只是直接信任，并没有反过来估计真实样本。

image.png

image.png

image.png

value function的逼近控制

同样的，只评估部分样本节约时间。
上节课提到的，我们需要做policy Iteration，如果我们估计直接估计Q，我们就没有模型的限制，同时还可以做贪心行为。

image.png
所以我们想要构造函数逼近实际的 $q_\pi(S,A)$ 从而使用梯度下降方法更新梯度。
image.png
还是从最简单的线性假设入手。

image.png
同样的可以使用TD算法估计 $G_t$ ，利用梯段下降进行更新。
image.png
像小车车游戏就更适合用TD方法更新。

image.png
image.png
image.png
image.png

3如果非线性，需要很多辅助函数，会造成离散，无法收敛。

image.png
括号表示因为使用了贪婪策略，会震荡。

image.png
image.png

Batch Methods

image.png

目前我们只是简单地使用的梯度下降的方法，但并没有最大化的使用，找到了最好的但不是最合适的函数值，所以我们期望找到最合适的函数值。
所以我们用Batch methods的方法，学习已经建立的经验库。

image.png
最小二乘法，学习经验数据库。

image.png
经验回放把训练过的东西保留在训练资料库中，然后类似监督学习标准的学习。
进行梯度下降，直到找到最小均方误差。

image.png

DQN

TD不适用于神经网络。
经验回放能够稳定你的神经网络，打破了混合之间的联系，消除之间潜在的关联，让出现顺序随机化，反而能够更加稳定的更新。
运用两套不同的参数向量，冻结下老的神经网络，试图储存下所有看过的信息，之后用目标对冻结的神经网络进行参数给与，获得更加稳定的参数更新。

image.png
image.png
image.png

image.png

线性最小二乘法

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

相关文章

Lecture 6 Value Function Approxi
Value Function Approximation 如何将强化学习应用到大的数据集希望使用value fu...
Lecture 6: Value Function Approx
一、Introduction （一）Large-Scale Reinforcement Learning 强化学习...
Lecture 6: Value Function Approx
Author：David SilverHe was awarded the 2019 ACM Prize in C...
Marketing
Lecture 1 Business begins with value creation ● Take some...
Your First Python Program
Every Python function returns a value, if the function ev...
文本框输入数字和小数点整数和浮点数 JS判断
function clearNoNum(obj){ obj.value = obj.value.replace(/...
js 保留两位小数
function returnFloat(value){var value=Math.round(parseFlo...
2018-02-25 vue filter的运用截取字符串
截取字符串： filters: { filterFun: function (value) { if(value&...
学习
function test(){ constcubic=value=>Math.pow(value,3); con...
01.MySQL PHP语法
//1.PHPMysqli函数mysqli_function(value,value,...);//2.funct...

网友评论

本文标题：Lecture 6 Value Function Approxi

本文链接：https://www.haomeiwen.com/subject/xaqamctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Lecture 6 Value Function Approxi|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！