分布式优先经验回放APEX算法

作者: 天使的白骨_何清龙 | 来源:发表于2020-07-08 15:12 被阅读0次

分布式优先经验回放APEX算法
Algorithm进阶计划 -- 广度优先算法
深度学习工程师
web开发需要知道的几个算法
常见调度算法
算法(2)-深度优先算法(DFS)，广度优先算法(BFS)
算法(三)：图解广度优先搜索算法
广度优先搜索与深度优先搜索
搜索算法
500 lines or less学习笔记（十四）——分布式系统

本质：

利用经验池是异步机制，开启多个探索者进行经验积累，学习者专注于经验池中的数据进行学习。
辅助方式：利用TD等方式确定的优先级来更新经验池。
** 学习者根据TD error修改优先级
** 探索者根据TD error初始化优先级

APE-X DQN:

结合了double-q 和nstep
batch loss function: $l_t(\theta)={1\over2}(G_t - q(S_t, A_t, \theta))^2$

$G_t = \underbrace{ R_{t+1} + \gamma R_{t+2} + \dots + \gamma _{n-1} R_{t+n} + \overbrace{ \gamma ^n q(S_{t+n}, \mathop{\arg\max}_{a}q(S_{t+n}, a, \theta), \theta^{-} ) } ^{{}double-Q\; bootstrap \; value} }_{{}multi-step\; return}$

APE-X DPG:

batch loss function: $l_t(\theta)={1\over2}(G_t - q(S_t, A_t, \psi))^2$

$G_t = \underbrace{ R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1} R_{t+n} + \gamma^n q(S_{t+n}, \pi (S_{t+n, \phi^{-}}), \psi^{-}) }_{{multi-step\;return}}$

探索率设置公式： $\epsilon_i=\epsilon^{1 + {i \over N+1}\alpha}$
其中， $\epsilon=0.4, \alpha=7, \; i_{代表探索者的索引号}$ ，每个探索者的探索率 $\epsilon$ 固定不变

分布式优先经验回放APEX算法
本质：利用经验池是异步机制，开启多个探索者进行经验积累，学习者专注于经验池中的数据进行学习。辅助方式：利用TD...
Algorithm进阶计划 -- 广度优先算法
广度优先算法广度优先算法框架广度优先算法运用 1. 广度优先算法框架 DFS（Deep First Search）...
深度学习工程师
基本要求: 熟悉深度学习相关算法以及框架有图像识别和检测经验优先熟悉计算机体系结构, 有CUDA 相关经验优先...
web开发需要知道的几个算法
算法分类快速排序算法深度优先算法广度优先算法堆排序算法归并排序算法
常见调度算法
先来先服务(FCFS)调度算法短作业优先(SJF)调度算法优先级调度算法高响应比优先调度算法时间片轮转调度算法多级...
算法(2)-深度优先算法(DFS)，广度优先算法(BFS)
深度优先算法定义深度优先算法即深度优先搜索算法（英语：Depth-First-Search，DFS）是一种用于...
算法(三)：图解广度优先搜索算法
算法简介广度优先搜索算法(Breadth First Search)，又称为"宽度优先搜索"或"横向优先搜索"，...
广度优先搜索与深度优先搜索
作者：覃超来源自极客时间覃超的算法课广度优先算法深度优先算法
搜索算法
BFS广度优先算法（Breadth-First Search） A*算法的出现时因为深度/广度优先算法找到的路径...
500 lines or less学习笔记（十四）——分布式系统
要学习分布式，就绕不开分布式算法。Paxos 算法是早期经典的分布式算法，有很多经典应用，后来的分布式算法也对其有...