美文网首页
强化学习的数学符号

强化学习的数学符号

作者: 小赛TT | 来源:发表于2018-10-20 22:04 被阅读0次

agent 学习者,决策者

enviroment  环境

s/state  状态,表示环境的数据

S  所有状态的集合

a/action  决策者的动作

A  所有行动的集合

A(s) 状态s的行动集合

r/reward agent在一个action之后,获得的奖赏

R  所有奖赏集合

St 第t步的状态

At 第t步的行动

Rt 第t步的奖赏

Gt 第t步的长期回报,也是强化学习的目标1,最求最大长期回报

π 策略policy,策略规定了状态s时,应该选择动作a,强化学习的目标2,找到最优策略

π(s) 策略π在状态s下,选择的行动

π* 最优策略optimal policy

r(s,a) 在状态s下,选择行动a的奖赏

r(s,a,s') 在状态s下,选择行动a,变成状态s'的奖赏

p(s'|s,a) 在状态s,选择行动a的前提下,变成状态s'的概率

vπ(s) 状态价值,使用策略π,状态s下的长期奖赏Gt

qπ(s,a) 行动价值,使用策略π,状态s,选择行动a下的长期奖赏Gt

v*(s)  最佳状态价值

q*(s,a) 最佳行动价值  强化学习的目标3:找到最优价值函数或者最佳行动价值函数

V(s) vπ(s)的集合

Q(s,a) qπ(s,a)的集合

v^(St,θt)  最优近似状态价值函数

q^(St,At,θt)  最优近似行动价值函数  强化学习的目标4:找到最优近似状态价值函数或者最优近似行动价值函数

θ 近似价值函数的权重向量  强化学习的目标5:找到求解θ

φ(s) 近似状态价值函数的特征函数,是一个将状态s转化成计算向量的方法,其和θ组成近似状态价值函数

  v^ ≈ transpose(θ)φ(s)

φ(s,a) 近似行动价值函数的特征函数,是一个将状态s,行动a转化成计算向量的方法,其和θ组成近似行动价值函数

v^ ≈ transpose(θ)φ(s,a)

et  第t步的有效跟踪向量(eligibility trace rate),可理解为近似价值函数微分的优化值。

  e0 ≈ 0

  et ≈ ▽v^(St,θt) + γλet-1

  θt ≈ θt + αδtet

α  学习步长 α∈(0,1]

γ 未来回报的折扣率(discount rate)γ∈[0,1]

λ λ-return 中的比例参数 λ∈[0,1]

h horizon,水平线h表示on-line当时可以模拟的数据步骤。 t<h≤T

ε 在ε-greedy策略中,采用随机行动的概率 ε∈[0,1)

相关文章

  • 强化学习的数学符号

    agent 学习者,决策者 enviroment 环境 s/state 状态,表示环境的数据 S 所有状态的集合...

  • 丽塔学教育☞《把数学画出来》刘善娜著(3)

    一、基于核心素养,强化专项能力 1、儿童数学关键能力:数感、符号意识、运算能力、空间观念、数据分析观念、推理能力和...

  • 高数符号

    数学符号及读法大全 常用数学输入符号: ≈ ≡ ≠ = ≤≥ < > ≮ ≯ ∷ ± + - × ÷ / ∫ ∮ ...

  • 符号

    专用符号、文本符号、数学符号专用符号% % ...

  • 机器学习中的数学符号

    主要符号一览 以下列举了本书中使用的主要符号。 数 集合 操作符 函数 导数和梯度 概率和统计 复杂度

  • 0 数学符号——深度学习

    其实我是看不下去《Deep Learning》的,但是为了完成我今年把它看完的约定,我只好强迫自己抄一遍了。每天最...

  • 12.几个重要符号的历史来源

    数学中的符号有很多,小学数学第一学段的数学如果分类的话,可以分为五大类:即元素符号、运算符号、关系符号、约定符号、...

  • 数学符号

    https://en.wikipedia.org/wiki/List_of_mathematical_symbols

  • 数学符号

  • iOS强化 : 符号 Symbol

    前言 : 之前接触过Bugly,在Bugly文档中心[http://bugly.qq.com/docs/user-...

网友评论

      本文标题:强化学习的数学符号

      本文链接:https://www.haomeiwen.com/subject/znqvzftx.html