强化学习导论——Finite Markov Decision P

强化学习导论——Finite Markov Decision P

作者: 初七123 | 来源:发表于2018-09-20 11:02 被阅读56次

强化学习导论——Finite Markov Decision P
Chapter 3
强化学习：有限马尔科夫过程
RL
4: 强化学习简介
深度强化学习（二）：基本原理与结构
马尔可夫决策过程
RL L1
[Chapter 1] Markov Decision Proc
单步强化学习在糖豆推荐系统的应用

MDP是强化学习问题在数学上理想的形式，对于有限马尔可夫决策序列(3.1)

t时刻状态和回报仅依赖于t-1时刻的状态和动作(3.2)

假设移动机器人有{high, low}两种电量状态，而有{search, wait, rechart} 三种可执行动作，则有限MDP可以表示为

我们的目标是使得总的回报最大化，有些任务的T是无限大，所以很容易得到每种选择的最大回报都是无限的，所以选择带有折扣因子的总回报

以及递推表达式

对于杆子平衡问题，如果设置没掉下去reward=1，则会导致最大回报无穷大，所以可以把杆子平衡问题视为连续任务，没掉下去reward=0，掉下去则为-1，所以最大回报等于 -r^K(K为保持平衡的最长时间)

若R恒等于+1，对于不同起点的总回报可以写成

对于MDPs，有在某策略下的价值函数

同时动作价值可以表示为

可以用蒙特卡洛的方式（即先用策略生成N个轨迹，求出v(s)的平均近似值）求解这两个式子，如果状态空间过大还可以用函数近似的方式来表达

展开价值函数得到Bellman方程

取回报的最大值得到最优Bellman方程

相关文章

强化学习导论——Finite Markov Decision P
MDP是强化学习问题在数学上理想的形式，对于有限马尔可夫决策序列(3.1) t时刻状态和回报仅依赖于t-1时刻的状...
Chapter 3
Chapter 3: Finite Markov Decision Processes Basic Definit...
强化学习：有限马尔科夫过程
FMDs FMDs（finite Markov decision processes）：对在一种连续性过程中不断做...
RL
RL 强化学习任务通常用马尔科夫决策过程(Markov Decision Process,简称 MDP)来描述： ...
4: 强化学习简介
强化学习简介简介本节课程主要包括这几个部分：定义什么是Markov decision process 定义什...
深度强化学习（二）：基本原理与结构
一、组成与结构 1.1、基本概念强化学习通常使用马尔可夫决策过程（Markov Decision Process...
马尔可夫决策过程
马尔可夫决策过程（Markov Decision Progress，MDP）可以用来描述绝大部分的机器强化学习，其...
RL L1
markov decision process Bellman equation value iteration
[Chapter 1] Markov Decision Proc
Markov Decision Process One of the most important problem...
单步强化学习在糖豆推荐系统的应用
1.强化学习基础 1.1 强化学习概念强化学习通常用马尔科夫决策过程(Markov Desicision Pro...

网友评论

本文标题：强化学习导论——Finite Markov Decision P

本文链接：https://www.haomeiwen.com/subject/rixlnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|强化学习导论——Finite Markov Decision P|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！