美文网首页
深度强化学习Trick:动作标准化

深度强化学习Trick:动作标准化

作者: 四碗饭儿 | 来源:发表于2018-07-29 14:20 被阅读0次

策略梯度Policy Gradient类的算法,如DDPG等,可以处理连续动作空间continuous action space。当我们编程实现时,简单的动作标准化可能会大大改善算法的性能。

Action Normalization

策略网络Policy Network的输出采用tanh,也就是

假设动作存在上下界


那么通过初级数学可以得到


相关文章

网友评论

      本文标题:深度强化学习Trick:动作标准化

      本文链接:https://www.haomeiwen.com/subject/robzmftx.html