强化学习的数学符号

作者: 小赛TT | 来源:发表于2018-10-20 22:04 被阅读0次

强化学习的数学符号
丽塔学教育☞《把数学画出来》刘善娜著（3）
高数符号
符号
机器学习中的数学符号
0 数学符号——深度学习
12.几个重要符号的历史来源
数学符号
数学符号
iOS强化 : 符号 Symbol

agent 学习者，决策者

enviroment 环境

s/state 状态，表示环境的数据

S 所有状态的集合

a/action 决策者的动作

A 所有行动的集合

A(s) 状态s的行动集合

r/reward agent在一个action之后，获得的奖赏

R 所有奖赏集合

St 第t步的状态

At 第t步的行动

Rt 第t步的奖赏

Gt 第t步的长期回报，也是强化学习的目标1，最求最大长期回报

π 策略policy，策略规定了状态s时，应该选择动作a，强化学习的目标2，找到最优策略

π(s) 策略π在状态s下，选择的行动

π* 最优策略optimal policy

r(s,a) 在状态s下，选择行动a的奖赏

r(s,a,s') 在状态s下，选择行动a，变成状态s'的奖赏

p(s'|s,a) 在状态s，选择行动a的前提下，变成状态s'的概率

vπ(s) 状态价值，使用策略π，状态s下的长期奖赏Gt

qπ(s,a) 行动价值，使用策略π，状态s，选择行动a下的长期奖赏Gt

v*(s) 最佳状态价值

q*(s,a) 最佳行动价值强化学习的目标3：找到最优价值函数或者最佳行动价值函数

V(s) vπ(s)的集合

Q(s,a) qπ(s,a)的集合

v^(St,θt) 最优近似状态价值函数

q^(St,At,θt) 最优近似行动价值函数强化学习的目标4：找到最优近似状态价值函数或者最优近似行动价值函数

θ 近似价值函数的权重向量强化学习的目标5：找到求解θ

φ(s) 近似状态价值函数的特征函数，是一个将状态s转化成计算向量的方法，其和θ组成近似状态价值函数

v^ ≈ transpose(θ)φ(s)

φ(s,a) 近似行动价值函数的特征函数，是一个将状态s，行动a转化成计算向量的方法，其和θ组成近似行动价值函数

v^ ≈ transpose(θ)φ(s,a)

et 第t步的有效跟踪向量(eligibility trace rate),可理解为近似价值函数微分的优化值。

e0 ≈ 0

et ≈ ▽v^(St,θt) + γλet-1

θt ≈ θt + αδtet

α 学习步长 α∈(0,1]

γ 未来回报的折扣率（discount rate）γ∈[0,1]

λ λ-return 中的比例参数 λ∈[0,1]

h horizon,水平线h表示on-line当时可以模拟的数据步骤。 t<h≤T

ε 在ε-greedy策略中，采用随机行动的概率 ε∈[0,1)

网友评论

本文标题：强化学习的数学符号

本文链接：https://www.haomeiwen.com/subject/znqvzftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

强化学习的数学符号

相关文章