强化学习导论——Multi-armed Bandits

强化学习导论——Multi-armed Bandits

作者: 初七123 | 来源:发表于2018-09-18 15:18 被阅读58次

强化学习导论——Multi-armed Bandits
Chapter 2
机器学习A-Z～置信区间上界算法 Upper Confidenc
Bandits
强化学习导论——Eligibility Traces
强化学习导论——Dynamic Programming
强化学习导论（Reinforcement Learning：An
深度学习应用开发TensorFlow实践第一讲笔记
强化学习导论——Monte Carlo Methods
强化学习导论——Planning and Learning wi

对于有K个手臂的赌博机，假设不知道每个手臂的收益，为了获得全局最大收益，通常需尝试和探索不同手臂的回报。

ε贪心的思想是，每次以ε的概率探索新手臂的回报，而用1-ε的概率选择当前已知回报最大的手臂。ε贪心测试效果如下，对于无限的步长ε贪心比直接贪心要差，但是前期因为较好的探索能力效果比较好。

对于每个手臂回报值的估计，通常使用平均的方式计算，但是保存每一步的回报非常浪费空间。

所以可以改写为增量的形式

整理得到 A simple bandit algorithm

对于非固定回报的多臂赌博机问题，每个手臂的回报不能用上面的形式估计平均值，而是改写为

又可被称为 exponential recency-weighted average，不难看出最新的回报估计是过去回报和最近回报的加权混合。

其中学习步长满足以下条件可以保证收敛

对于初始Q值的设置，全部设置为一个大的值可作为探索，在固定回报的问题上非常有效，测试效果如下

但是仍然不推荐使用，它不适合非固定的回报问题，而且这种探索只是暂时的

还有一种新的探索利用方法，它考虑了每个手臂的综合情况，而不是简单的非贪心

测试效果如下

尽管UCB的效果很好，但是其很难扩展到其它一般的强化学习问题中去，而且难以处理很大的状态空间。

对于动作的估计，我们还可以使其满足一个概率，根据一个数值H_t用softmax的方式计算

于是根据随机梯度下降的思想可以得到一种学习方法，如果回报比平均基数高，则增大H_t，否则减小

该公式的推导过程对于算法理解非常重要！！但篇幅太长不做描述

下面是算法效果测试，可以看出没有基线则效果变差很多
这是因为减去一个基数可以减小随机梯度下降中的方差，通常可以选择奖励的平均值作为基线

相关文章

强化学习导论——Multi-armed Bandits
对于有K个手臂的赌博机，假设不知道每个手臂的收益，为了获得全局最大收益，通常需尝试和探索不同手臂的回报。 ε贪心的...
Chapter 2
Chapter 2: Multi-armed Bandits Multi-armed bandits can be...
机器学习A-Z～置信区间上界算法 Upper Confidenc
本文将要开始介绍机器学习中的强化学习，这里首先应用一个多臂老虎机(The Multi-Armed Bandit ...
Bandits
It’s a cloudy Saturday, I decided to stay at home enjoyin...
强化学习导论——Eligibility Traces
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中，k涉及到资格迹的使用。几乎所有的时间差分算法如Q-...
强化学习导论——Dynamic Programming
这里的DP是强化学习中用于求解MDP问题的一种方法，本章用DP找到满足最优贝尔曼方程的策略首先我们考虑如何评估状...
强化学习导论（Reinforcement Learning：An
https://blog.csdn.net/Tryantking/article/details/79953734
深度学习应用开发TensorFlow实践第一讲笔记
人工智能导论技术：蒙特卡洛树+深度学习+强化学习 AlphaGo 采用深度卷积神经网络训练策略网络和价值网络以减...
强化学习导论——Monte Carlo Methods
在本章中，我们将考虑我们用于估计价值函数和发现最优政策的第一种学习方法。与前一章不同，这里我们不假设完整的环境知...
强化学习导论——Planning and Learning wi
两种模型分类 distribution model 输出动作依赖于概率分布sample model 输出动作是确定...

网友评论

本文标题：强化学习导论——Multi-armed Bandits

本文链接：https://www.haomeiwen.com/subject/qvxlnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|强化学习导论——Multi-armed Bandits|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！