为什么Q-Learning有效？

为什么Q-Learning有效？

作者: 海街diary | 来源:发表于2018-02-08 16:27 被阅读58次

为什么Q-Learning有效？
实战深度强化学习DQN-理论和实践
RL[0] - 初见
莫烦强化学习笔记2- Q Learning
RL
强化学习之Sarsa
RL: cliffwalk.py
白话强化学习之Sarsa与Sarsa-lambda
ML4T笔记 | 03-07 Dyna
【5分钟 Paper】Deep Reinforcement Le

关于增强学习Q(s,a)的理解。

Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
关于最优价值函数、最优行为的定义如下：

最优价值函数最优行为最优价值函数的学习准则

最近在思考，为什么Q-Learning能取得如此好的效果。

总结关键点如下：

Q-Learning是通过直接解Belleman最优方程来求解最优Q值，而不是在无限多的策略π中选择最优的策略的Q值。
Belleman最优方程存在条件是要选择最优行为，因此Q-Learning的策略就是选择最优状态下Q值最大的行为。(存在条件、行为策略两者恰好统一）。
通过Incremental Improvement, 这种学习方法可以做到Policy Imporvement(更新后的Q值一定不比原来的差）。从而，实现了从任意状态开始进行学习，可以收敛到最优的价值函数。(这一点可以参照《Reinforcement Learning: An Introduction》的4.2节P62）

Q-Learning的学习方法

相关文章

为什么Q-Learning有效？
关于增强学习Q(s,a)的理解。 Temporaral Difference通过求解Belleman最优方程来进行...
实战深度强化学习DQN-理论和实践
1、Q-learning回顾 Q-learning 的算法过程如下图所示：在Q-learning中，我们维护一...
RL[0] - 初见
结构背景 Q-Learning with table Q-Learning with network 后记背景...
莫烦强化学习笔记2- Q Learning
Q-learning 决策: 根据Q表，选择reward较大的action. Q-learning 更新: 代码如下
RL
Q-learning Sarsa Sara-lambda
强化学习之Sarsa
在强化学习中，Sarsa和Q-Learning很类似，本次内容将会基于之前所讲的Q-Learning的内容。目录...
RL: cliffwalk.py
Keywords: Q-learning(radical)、Sarsa(conservative)、egreedy...
白话强化学习之Sarsa与Sarsa-lambda
Sarsa Sarsa的学习过程和Q-Learning基本一样，不同的地方是Q-Learning在走下一步的时候是...
ML4T笔记 | 03-07 Dyna
1 - Overview Q-learning is expensive because it takes man...
【5分钟 Paper】Deep Reinforcement Le
论文题目：Deep Reinforcement Learning with Double Q-learning 所...

网友评论

增强学习Reinforcement Learning

本文标题：为什么Q-Learning有效？

本文链接：https://www.haomeiwen.com/subject/ywvttftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

增强学习Reinforcement Learning

热点阅读

增强学习Reinforcement Learning

关于我们|服务条款|联系我们|为什么Q-Learning有效？|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！