agent 学习者,决策者
enviroment 环境
s/state 状态,表示环境的数据
S 所有状态的集合
a/action 决策者的动作
A 所有行动的集合
A(s) 状态s的行动集合
r/reward agent在一个action之后,获得的奖赏
R 所有奖赏集合
St 第t步的状态
At 第t步的行动
Rt 第t步的奖赏
Gt 第t步的长期回报,也是强化学习的目标1,最求最大长期回报
π 策略policy,策略规定了状态s时,应该选择动作a,强化学习的目标2,找到最优策略
π(s) 策略π在状态s下,选择的行动
π* 最优策略optimal policy
r(s,a) 在状态s下,选择行动a的奖赏
r(s,a,s') 在状态s下,选择行动a,变成状态s'的奖赏
p(s'|s,a) 在状态s,选择行动a的前提下,变成状态s'的概率
vπ(s) 状态价值,使用策略π,状态s下的长期奖赏Gt
qπ(s,a) 行动价值,使用策略π,状态s,选择行动a下的长期奖赏Gt
v*(s) 最佳状态价值
q*(s,a) 最佳行动价值 强化学习的目标3:找到最优价值函数或者最佳行动价值函数
V(s) vπ(s)的集合
Q(s,a) qπ(s,a)的集合
v^(St,θt) 最优近似状态价值函数
q^(St,At,θt) 最优近似行动价值函数 强化学习的目标4:找到最优近似状态价值函数或者最优近似行动价值函数
θ 近似价值函数的权重向量 强化学习的目标5:找到求解θ
φ(s) 近似状态价值函数的特征函数,是一个将状态s转化成计算向量的方法,其和θ组成近似状态价值函数
v^ ≈ transpose(θ)φ(s)
φ(s,a) 近似行动价值函数的特征函数,是一个将状态s,行动a转化成计算向量的方法,其和θ组成近似行动价值函数
v^ ≈ transpose(θ)φ(s,a)
et 第t步的有效跟踪向量(eligibility trace rate),可理解为近似价值函数微分的优化值。
e0 ≈ 0
et ≈ ▽v^(St,θt) + γλet-1
θt ≈ θt + αδtet
α 学习步长 α∈(0,1]
γ 未来回报的折扣率(discount rate)γ∈[0,1]
λ λ-return 中的比例参数 λ∈[0,1]
h horizon,水平线h表示on-line当时可以模拟的数据步骤。 t<h≤T
ε 在ε-greedy策略中,采用随机行动的概率 ε∈[0,1)
网友评论