本质:
- 利用经验池是异步机制,开启多个探索者进行经验积累,学习者专注于经验池中的数据进行学习。
- 辅助方式:利用TD等方式确定的优先级来更新经验池。
** 学习者根据TD error修改优先级
** 探索者根据TD error初始化优先级
APE-X DQN:
-
结合了double-q 和nstep
-
batch loss function:
APE-X DPG:
- batch loss function:
探索率设置公式:
其中,,每个探索者的探索率
固定不变
结合了double-q 和nstep
batch loss function:
探索率设置公式:
其中,,每个探索者的探索率
固定不变
本文标题:分布式优先经验回放APEX算法
本文链接:https://www.haomeiwen.com/subject/ejkccktx.html
网友评论