Monte Carlo的原理
在DP中,值函数可以利用Bellman方程便捷的计算。。然而,很多model-free的情况下,不能用这个手段了,必须回到原始的值函数的定义计算,这就是蒙特卡罗方法。
用样本均值来近似估计期望是可行的,大数定律
也就是,通过增量进行更新。
同理,action-value function 也可以这么近似。
策略评估
通过上述的采样手段,完成了对的评估。
策略改进
贪心策略当然是可以的,但是存在over exploit (under exploration)的问题。所以,在书中,采用 greedy 策略。
实际上,就是将delta分布与均匀分布做了一个mixture。 这种改进是否一定有效呢? 即,需要证明: 。
根据定义有:
已知:
所以,choose,
于是:
证明完毕。PS:书中的证明过程是有问题的,结论不变。
On-policy & Off-policy
在线策略和离线策略,也是观测到greedy 产生的策略有一定的随机性,不适合做最优策略。策略评估和策略改进能否用两种策略呢?根据答案从而产生了 on-policy 和off-policy 两种方案。 On-policy (在线策略)是指两个过程中使用的是同一个策略。
离线策略 off policy
前面说了,在数据采集阶段使用的是行为策略,而要用行为策略的数据对原始策略进行改进。所以还是要谈,策略评估的问题
根据重要性采样算法, 另外的一个分布下的采样,可以对另外一个分布的期望进行计算。
使用重要性采样, 极有可能是一个很大的数,这样估算的
方差会很大,从而不稳定。解决办法是利用加权重要性采样。
网友评论