[强化学习] Saras 算法

作者: winddy_akoky | 来源:发表于2018-10-15 15:20 被阅读0次

[强化学习] Saras 算法
2019-04-18派森学习第150天
强化学习基础篇（三十三）Dyna算法
深度强化学习中实验环境-开源平台框架汇总
强化学习基础篇（三十二）基于模型的强化学习算法
带你动手编程的强化学习著作，每行代码都是它的温柔！
用一个小游戏入门深度强化学习
基于Policy的强化学习算法
PapeRman #4
强化学习(Reinforcement Learning)中的Q-

image.png

Sarsa 的名称来源与上图所描述的序列：针对一个状态 $S$ ，个体通过行为策略产生一个行为 $A$ ，执行该行为进而产生一个状态行为对 $(S,A)$ ，环境收到个体的行为后会告诉个体即时奖励 $R$ 以及后续进入的状态 $S^\prime$ ；个体在状态 $S^\prime$ 时遵循当前的行为策略产生一个新的行为 $A^\prime$ ，个体此时，并不执行该行为，而是通过行为价值函数得到后一个状态行为对 $(S^\prime, A^\prime)$ 的价值，利用这个新的价值和即时奖励 $R$ 来更新前一个状态行为对 $(S,A)$ 的价值

与MC算法不同的是，Sarsa 算法在单个状态序列内的每一个时间步，在状态 $S$ 下采取一个行为 $A$ 到达状态 $S^\prime$ 后都要更新状态行为对 $(S,A)$ 的价值 $Q(S,A)$ ，这一过程同样使用 $\epsilon -$ 贪婪策略进行策略迭代：

image.png

算法描述如下：

Selection_096.png

[强化学习] Saras 算法
Sarsa 的名称来源与上图所描述的序列：针对一个状态，个体通过行为策略产生一个行为，执行该行为进而产生一个状态行...
2019-04-18派森学习第150天
想要用强化学习改进派工算法。强化学习在之前学习过一个Q-learning算法。强化学习的基本写法和神经网络很相...
强化学习基础篇（三十三）Dyna算法
强化学习基础篇（三十三）Dyna算法 1、使用模型进行规划基于模型的强化学习算法的主要成分可以分为学习（Lear...
深度强化学习中实验环境-开源平台框架汇总
本文汇总了常用的验证强化学习算法的开源环境平台。当我们设计了一个强化学习算法之后，我们如何来验证算法的好...
强化学习基础篇（三十二）基于模型的强化学习算法
强化学习基础篇（三十二）基于模型的强化学习算法在策略梯度算法中，智能体是直接从经验中去学习策略。之前value-...
带你动手编程的强化学习著作，每行代码都是它的温柔！
如今，深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。由于深度强化学习算法融合了深度学习、统计、信息...
用一个小游戏入门深度强化学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。强化学习是机器学习的一...
基于Policy的强化学习算法
在文章基于Value的强化学习算法中，介绍了Q-learning和SARSA两种经典的强化学习算法。在本篇文章中，...
PapeRman #4
分布算法目前是强化学习的有趣的发现。以此为基础可以构造更具严格理论支持的强化学习算法。本系列给出最近 Google...
强化学习(Reinforcement Learning)中的Q-
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做，而强化学习（Reinforcement Lear...