策略梯度Policy Gradient
类的算法,如DDPG等,可以处理连续动作空间continuous action space
。当我们编程实现时,简单的动作标准化可能会大大改善算法的性能。
Action Normalization
策略网络Policy Network
的输出采用tanh
,也就是
假设动作存在上下界
那么通过初级数学可以得到
策略梯度Policy Gradient
类的算法,如DDPG等,可以处理连续动作空间continuous action space
。当我们编程实现时,简单的动作标准化可能会大大改善算法的性能。
策略网络Policy Network
的输出采用tanh
,也就是
假设动作存在上下界
那么通过初级数学可以得到
本文标题:深度强化学习Trick:动作标准化
本文链接:https://www.haomeiwen.com/subject/robzmftx.html
网友评论