美文网首页
分布式优先经验回放APEX算法

分布式优先经验回放APEX算法

作者: 天使的白骨_何清龙 | 来源:发表于2020-07-08 15:12 被阅读0次

本质:

  • 利用经验池是异步机制,开启多个探索者进行经验积累,学习者专注于经验池中的数据进行学习。
  • 辅助方式:利用TD等方式确定的优先级来更新经验池。
    ** 学习者根据TD error修改优先级
    ** 探索者根据TD error初始化优先级

APE-X DQN:

  • 结合了double-q 和nstep

  • batch loss function: l_t(\theta)={1\over2}(G_t - q(S_t, A_t, \theta))^2

G_t = \underbrace{ R_{t+1} + \gamma R_{t+2} + \dots + \gamma _{n-1} R_{t+n} + \overbrace{ \gamma ^n q(S_{t+n}, \mathop{\arg\max}_{a}q(S_{t+n}, a, \theta), \theta^{-} ) } ^{{}double-Q\; bootstrap \; value} }_{{}multi-step\; return}

APE-X DPG:

  • batch loss function: l_t(\theta)={1\over2}(G_t - q(S_t, A_t, \psi))^2

G_t = \underbrace{ R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1} R_{t+n} + \gamma^n q(S_{t+n}, \pi (S_{t+n, \phi^{-}}), \psi^{-}) }_{{multi-step\;return}}

探索率设置公式: \epsilon_i=\epsilon^{1 + {i \over N+1}\alpha}
其中,\epsilon=0.4, \alpha=7, \; i_{代表探索者的索引号},每个探索者的探索率\epsilon固定不变

相关文章

网友评论

      本文标题:分布式优先经验回放APEX算法

      本文链接:https://www.haomeiwen.com/subject/ejkccktx.html