    • 论文题目:Prioritized Experience Replay


      Experience replay能够让强化学习去考虑过去的一些经验,在【1】这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键,因此随机采样的方式就不太好。作者提出了一种prioritizing experience的方式,来提高学习的效率。

      之前的做法像DQN基本上都是从记忆库中sample一些experience data出来之后给model update一次之后就被丢弃了。但是这里会有些问题,就是如果采样方式比较好的话一来会切断数据之间的相关性,二来,对于一些相似度高的数据可以少采样一点,而很少见的数据可以多拿来更新几次。


      Experiences with high magnitude TD error also appear to be replayed more often(Singer & Frank, 2009; McNamara et al., 2014).

      The TD error provides one way to measure these priorities (van Seijen & Sutton, 2013). 作者将这种方法用于model-free的强化学习中,而非model-base的方法中。

      做replay memory之前我们需要明确两个点。选择什么样的experiences去存储,选择什么样的experiencereplay,怎么实现?作者只解决后面这个问题。


       prioritized replay 中一个核心的问题就是如何来选择这个transition (s,a,r,s'),作者采用TD-error来衡量transition的重要性(how far the value is from its next-step bootstrap estimate (Andre et al., 1998))。

      greedy TD-error prioritization会产生一些问题:1. TD-error的样本可能永远不会被采样到;2. 整个算法对噪声会非常敏感;3. TD-error大的样本很容易使得神经网络过拟合(因为一直采样TD-error大的样本)。

    • stochastic sampling method

      基于以上几点,作者提出stochastic sampling method,介于pure greedy prioritizationuniform random sampling之间的一种采样方法。the probability of sampling transition i as:

    P(i) = \frac{p_{i}^{\alpha}}{\sum_{k}p_{k}^{\alpha}}

      其中p_{i} >0, is the priority of transition i,指数\alpha determines how much prioritization is used,当\alpha =0时,就是随机选(uniform case)。


    1. proportional prioritizationp_{i}=|\delta_{i}| + \varepsilon\delta{i}表示TD-error\varepsilon表示一个很小的正数。这么做的目的是希望TD-error0的样本也能被采样得到。
    2. rank-based prioritizationp_{i} = \frac{1}{\text{rank(i)}},其中\text{rank(i)}表示依据|\delta_{i}|的排序结果。In this case, P becomes a power-law distribution with exponent \alpha.


    • For the rank-based variant:我们可以用一个分段线性函数来近似累积密度函数,k段的概率是相等的。分段边界可以预先计算出来(因为只与N\alpha有关系)。在运行时,我们选择一个片段,然后在这个片段中的所有transition中均匀地采样。选kminibatch的大小,从每一个片段中选出一个transition-这是一种分层抽样,可以平衡minibatch。意思就是先划分片段,然后从里面随机抽。

      For the rank-based variant细节
    • Proportional prioritization

    Proportional prioritization
    • Annealing the bias(为减少bias)

      随机更新对期望值的估计依赖于与预期相同的分布相对应的更新。优先重放机制引入了bias,它以一种不受控制的方式改变了这个分布,因此改变收敛结果(即使策略和状态分布是固定的)。通过引入importance-sample (IS) weights来弥补:

    w_{i} = (\frac{1}{N} \cdot \frac{1}{P(i)})^{\beta}



    Prioritized Experience Replay算法流程





      这篇文章是ICLR2016上面的一篇文章。第一作者Tom SchaulGoogle DeepMindSenior research ScientistPostDoc at New York University from 2011-2013, PhD Student at IDSIA from 2007-2011。




    1. Some transitions may not be immediately useful to the agent,but might become so when the agent competence increases (Schmidhuber,1991).
    1. TD-errors同时也有被用于 explore (White et al., 2014) or which features to select (Geramifard et al., 2011; Sun et al., 2011)
