2.4 增量实现 & 2.5 解决一个非平稳问题

作者: 从此不迷茫 | 来源:发表于2021-08-22 21:13 被阅读0次

2.4 增量实现 & 2.5 解决一个非平稳问题
推荐系统实践笔记（2）
《大话数据结构》读书笔记（2）：算法
2021-10-29 【python学习01】确定这个月锻炼重点
Kettle合并记录问题解决
day04
ElasticSearch入门
Curator 使用（四）分布式锁实现排它锁
算法第二章计划
流量时序模型

2.4 Incremental Implementation

背景：目前的行动价值方法都将行动价值估计为观察到的奖励的样本平均值。现在转向如何以计算上有效率的方式计算这些平均值的问题，特别是使用恒定内存和恒定每时间步计算。

为了简化符号，我们将注意力集中在一个动作上。以 $R_{i}$ 表示此第i次选择的行动奖励，使用 $Q_{n}$ 表示其在被选择n-1次后的（平均）估计价值，可以将其写成：

$Q_{n} =\frac{R_{1} +R_{2} +...R_{n-1} }{{n-1}}$

优点：保留所有奖励的记录，然后在需要估计值时执行此计算。

缺点：随着时间的推移，内存和计算需求会随着回报的增加而增加。每一个额外的奖励都需要额外的内存来存储，并需要额外的计算来计算分子中的总和。

正如您可能怀疑的那样，这并不是真正必要的。设计用于更新平均值的增量公式是很容易的，因为处理每一个新奖励所需的计算量较小且恒定。给定 $Q_{n}$ 和 $R_{n}$ ，n种奖励平均值新公式为：

式2.3 即使对于n=1，该值为偶数，对于任意Q1，得到Q2=R1

这个实现只需要Qn和n的内存，每个新奖励只需要少量的计算（上式2.3）。下一页的框中显示了使用增量计算样本平均值和ε-贪婪操作选择的完整bandit算法的伪代码。假定函数bandit（a）采取行动并返回相应的奖励。

更新规则（2.3）的形式在本书中经常出现。

一般形式是：

$NewEstimate\leftarrow OldEstimate+StepSize[Target-OldEstimate].$ (2.4)

表达式 $[Target-OldEstimate]$ 在估计中是一个误差（error），通过向“目标”迈出一步，它就会减少虽然目标可能有噪声，但假定目标指示理想的移动方向。例如，在上述情况下，目标是第n个奖励。

请注意，在上述增量方法中使用的步长参数（步长）会随着时间步长的变化而变化。在处理动作a的第n个奖励时，该方法使用步长参数 $\frac{1}{n}$ ,本书中，我们用α表示步长参数，或者更一般地用 $\alpha _{t}(a)$ ,当 $\alpha _{t}(a)$ =1/n时，我们有时使用非正式的速记α=1/n，使n对动作的依赖性隐式存在，正如我们在本节中所做的那样。

2.5 Tracking a Nonstationary Problem

背景：迄今为止讨论的平均方法适用于平稳的bandit问题，即报酬概率不随时间变化的bandit问题。遇到的强化学习问题，实际上是非平稳的。在这种情况下，对最近的奖励给予更多的重视比对很久以前的奖励给予更多的权重是有道理的。

常用的方法之一：恒定步长参数，即常数。

例如，增量更新规则（2.3）用于更新过去n-1代的平均Qn奖励修改为：

$Q_{n+1} =Q_{n} +\alpha [R_{n} -Q_{n} ]$ ，（2.5）

其中，步长大小参数α∈(0,1]，常数。因此， $Q_{n+1}$ 是过去奖励与现在初始估计 $Q_{1}$ 的加权平均：

其中

(1-\alpha )^n+\sum\nolimits_{i=1}^n\alpha (1-\alpha )^{n-i}=1

随着干预奖励数量的增加，给予Ri的权重也随之降低。事实上，权重根据1-α的指数呈指数衰减。

另一种，使步长参数随着时间变化， $\alpha _{n}(a) =\frac{1}{{n}}$ 由大数定律保证收敛到真正的作用值。当然，并非所有的序列选择都能保证收敛 ${\{\alpha _{n}(a) }\}、$ ,随机逼近理论中的一个著名结果给出了确保概率1收敛所需的条件：

第一个条件是保证步骤足够大，最终能够克服任何初始条件或随机波动。第二个条件保证最终步骤变得足够小，以确保收敛。

注意，对于样本平均情况，两个收敛条件都满足 $\alpha _{n}(a) =\frac{1}{{n}}$ ，但不适用于恒定步长参数的情况 $\alpha _{n}(a) =\alpha$ 。在后一种情况下，不满足第二个条件，这表明估计永远不会完全收敛，但随着最近收到的奖励而继续变化。正如我们前面提到的，在非平稳环境中，这实际上是可取的，而有效的非平稳问题是强化学习中最常见的问题。此外，满足条件（2.7）的步长参数序列通常收敛非常缓慢，或者需要大量调整以获得满意的收敛速度。虽然满足这些收敛条件的步长参数序列通常用于理论工作，但它们很少用于应用和实证研究。

练习2.4 如果步长参数 $\alpha _{n}$ 不是常数，那么估计值 $Q_{n}$ 是之前收到的奖励的加权平均值，其权重不同于（2.6）中给出的权重。就步长参数的顺序而言，与（2.6）类似，一般情况下每个先前奖励的权重是多少？

$\alpha (1-\alpha )^{n-i}$

练习2.5 设计并进行一个实验，以证明样本平均法对于非平稳问题的困难。使用10臂试验台的修改版本，其中所有q∗(a）从相等开始，然后进行独立的随机游动（例如，在每一步上将平均值为零、标准偏差为0.01的正态分布增量添加到所有q∗(a））。做出图2.2所示的图表，用于使用递增计算的样本平均值的行动值方法，以及使用恒定步长参数α=0.1的另一个行动值方法。使用ε=0.1和更长的运行时间，例如10000步。

2.4 增量实现 & 2.5 解决一个非平稳问题
2.4Incremental Implementation 背景：目前的行动价值方法都将行动价值估计为观察到的奖励...
推荐系统实践笔记（2）
从2.4节至2.5节
《大话数据结构》读书笔记（2）：算法
2.4算法的定义解决特定问题求解步骤的描述，在计算机中表现为指令的而有限序列，并且每条指令表示一个或对各操作2.5...
2021-10-29 【python学习01】确定这个月锻炼重点
学习打卡： 2.3节字符串 ? 明天任务： 2.4 2.5 2.6 3.1 今天突然想到一个问题，我练瑜伽的目标...
Kettle合并记录问题解决
Kettle 实现增量同步的一个关键,出现了异常,已经解决问题：获取到同步源和同步目标数据后，对比两者差异，用到...
day04
1.今天学了什么 1.css盒子模型 2.1浮动 2.2如何清除浮动 2.3定位 2.4布局方式的总结 2.5实现...
ElasticSearch入门
1. 步骤分析 2. 步骤实现2.1 创建maven项目2.2 导包2.3 配置yml2.4 入口类2.5 测试2...
Curator 使用（四）分布式锁实现排它锁
Zookeeper实现分布式锁总结优点：有效的解决单点问题，不可重入问题，非阻塞问题以及锁无法释放的问题实现...
算法第二章计划
12.11 2.1 12.12 2.2 12.13 2.3 12.14 2.4 12.14 2.5 12.15 ...
流量时序模型
宏观流量时序模型只能处理平稳过程和特殊的非平稳过程，当用该模型描述流量行为时误差是较大的。这类模型解决平稳过程...

2.4 增量实现 & 2.5 解决一个非平稳问题

2.4 Incremental Implementation

2.5 Tracking a Nonstationary Problem

相关文章

2.4 增量实现 & 2.5 解决一个非平稳问题

推荐系统实践笔记（2）

《大话数据结构》读书笔记（2）：算法

2021-10-29 【python学习01】确定这个月锻炼重点

Kettle合并记录问题解决

day04

ElasticSearch入门

Curator 使用（四）分布式锁实现排它锁

算法第二章计划

流量时序模型

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

强化学习导论II